3.深度学习在视频行业的应用
视频因具有运动的图像、文本、音频、用户观看日志等复杂的时空信息,容易带动观者的情绪,是内容最丰富的媒体,在未来将成为信息表达和传播的主流。然而目前大部分视频都存在一些问题:第一、随着视频形成的规模增加,视频处理的任务也更加艰巨,信息传播的速度跟不上产生的速度。以爱奇艺为例,每天都有十几万的视频上传,如果通过人工的方法为这些视频进行审核、标注,那将花费巨大的人力,并且效率低下。另一方面,视频中的内容无法得到有效利用。视频网站虽累积了海量用户,但黄金流量却难以规模变现。而大数据及深度学习的应用,可以分析视频序列中的信息,以达到理解视频内容的目的,为解决上述问题提供了新的视角。
3.1.视频的智能化处理
通过大数据和深度学习挖掘解析视频画面内容,从而实现视频的智能化处理,是提高视频生产效率的法宝。传统电视台对于节目的编辑、卡段以及审核全部是人工的,花费时间长,效率也低。而深度学习的应用会让整个过程迅速加快:对整个情节自动卡段,对所有的语义识别、字母的自动提取,对整个视频的审核变成全自动。每一个视频吸引用户的点击靠的是描述和截图。如何在每天巨量的视频里面自动选出最适合的截图,它是视频领域需要解决的问题。以前使用的是能量算法,选择变化最大或者说保真度最大的图片作为截图,而今融入视频识别和人脸识别,表达这个视频的截图将更加贴切。
视频的上传需要经历严格的黄、暴检测,人工智能可以节省大量的人力。2016年3月全国“扫黄打非”行动中,对百度云盘、微盘、360云盘等云储存平台上的大量视频图像数据进行审核是一项重要且艰巨的任务,人工审核黄色、暴力等信息会非常消耗时间和人力。通过基于深度学习的视频大数据技术,可以精准识别出这些平台的色情、暴恐、小广告等违规图片或视频,能帮助开发者团队降低运营风险和法律风险,节省大量审核人力。例如图普科技就是基于深度学习图像识别技术,推出图像识别云服务,为企业提供各种图片和视频审核、增值、搜索服务。
迅雷通过接入图普科技的图像识别云平台,超过98%的色情视频被机器过滤,复审量低于总量2%,节省了超过98%的人力成本。Viscovery创意引晴公司能够监测色情、暴力、反恐等违禁内容,适用网络直播、盗版内容监测等领域,能节省95%人力,进行高效分析。
3.2.深度学习开创新的商业模式:视频电商与新型广告植入
深度学习在视频大数据中可以实现广告与客户需求更加精准的匹配。目前庞大的视频大数据资源已经吸引了包括BAT在内的国内外顶尖视频网站。阿里与优酷土豆的边看边买,百度和爱奇艺的随视购,以及腾讯视频、搜狐视频,芒果TV都陆续开始在视频画面中植入广告。通过大数据挖掘自动分析视频中的画面内容,并自动在视频中产生信息、标签、商品等内容,一方面能够增加商品的点击率和销售,另一方面也可以实现更精确的广告精准匹配,增加广告投放,,最终实现将流量转换成营收的目标。同时还可以进行广告效果的监测,获得视频里面品牌曝光的次数、时长等。
优酷土豆斥资千万“衣+”:边看边买。优酷土豆斥资千万投资“衣+”,旨在大数据融合的背景下,打造个性化电商消费体验,致力从内容消费,到商品发现,到收藏购买完整消费链条的创建,最大程度提高消费转化率,实现“边看边买”的业务模式。基于海量数据的深度学习,能够检测视频或图像中的商品,并通过商品特征分析,准确判断商品类目。通过标注、打点、广告自动投放、搜索同款等方式完成广告精准投放和电商闭环。在传统的营销过程中,从消费意向培育到最终完成消费,中间要经历漫长的环节,并且伴随着风险,因为购买意愿很可能因为某些原因打消了。而在“边看边买”模式下,当消费者的购买意愿产生时,就能立即将其转化为购买决策,把“内容消费”和“购买决策”这两大原本具有先后顺序的环节,几乎同时完成,大大提高了转化率。
百度和爱奇艺:随视购。由百度和爱奇艺推出的广告产品—随视购,是基于深度学习的Videoout技术的全面使用,能够帮助识别用户观看的场景,从而针对性推送强关联的同款产品或相关定制化活动。让用户在对品牌有最旺盛需求的时候,直接实现品牌的深度曝光。基于深度学习的同类和同款物品检测,精准对接海量的商品标签,可以提高同类商品的展现机会和转化率。Videoout技术的执行逻辑就是:用深度学习去自动识别视频里的物体,自动把它和商品库里的商品对比,当匹配相似度高的时候,就自动给它打上标签,甚至在播放框右侧广告位弹出官方购买链接,帮助用户解决他的购物需求。
对视频的理解变成对视频内容的理解后,通过深度学习可以精确识别视频中出现的商品和人。识别出商品后,通过海量链接可以连接到相应的购买地点,让用户在看视频的时候直接购买。而识别出视频中的人,尤其是明星的情况下,甚至可以连接到相应的SNS,从而直接跟这个明星进行互动。
以浙江卫视《跑男4》为例,爱奇艺作为唯一一家连播四季《跑男》的视频平台,通过人工智能技术实现的“随视购”,在极短时间内便为携程旅行网、海飞丝带来超千万的展示量,大幅提升了购买转换率和广告主的品牌形象。这种无痕式的营销方式实现内容价值的裂变效应,将用户体验与商业价值充分融合,真正实现了平台、内容与商业价值间的多方共赢。
“Videoin”广告植入。以爱奇艺的Videoin为例,该技术可以在内容制作完毕后再将广告植入到视频中,类似于平面时代的Photoshop图片处理。“Videoin”为在拍摄完成的视频中进行内容二次合成,提供了一种技术解决方案,即能够将广告实体在后期处理中,自然植入到原有视频场景中。这意味着植入式广告将不再受影视拍摄周期限制,“Videoin”技术将使得植入广告售卖周期和内容生命周期等长。爱奇艺在自制剧《废柴兄弟2》中就利用Videoin技术增加了广告植入。剧中人正在讨论挂满整面墙的摄影作品,而原本挂在墙上的照片被替换成了加多宝的广告。
以往广告植入遇到的一个最大的问题是,在播出之前,很难知道这个节目或者电影、电视剧会不会火,广告商也拿不准,可一旦开始拍摄了,植入广告的商机就结束了。但Videoin这个技术能让谈赞助这件事放到后期去做,拍摄之前无需和广告商商谈广告投资,只要事先确定好哪些地方准备植入广告,把地方空出来,后期流量上去了,广告商感兴趣了,用技术做植入。
4.深度学习在医疗行业的应用
4.1.医疗行业数据处理要求远远超出人类个体信息处理能力
在医疗保健行业,数据量多样性和复杂性都在快速增长。一个癌症患者的基因组就相当于半个TB数据,这样的数据处理能力是任何一个医生都没有办法完成的。基于基因测序带来的大数据和日新月异的临床试验、疗法产生的数据洪流,远远超出了人类的个体信息处理能力。人工智能的自我调适和学习能力,处理人类自然语言的能力,以及提出并评估解决方案的能力,是医疗卫生领域的必然需求。
从IBM围绕沃森的并购来看,整合数据资源是实现人工智能在医疗行业应用的关键。IBM在2015年以来的并购案中,围绕医疗数据进行布局是其重中之重。
收购TruvenHealthAnalytics获得全面患者和临床医疗数据。2016年2月19日,IBM斥资26亿美元收购TruvenHealthAnalytics。TruvenHealthAnalytics是一家医疗保健数据与分析服务提供商,在临床数据处理方面有超过40年的经验。拥有8500家客户,其中包括美国联邦政府和州政府机构、雇主、医保、医院等,以及3亿病人数据。Truven的患者支付记录,包括有疾病类型、诊断、处方和治疗结果等各种细节。据悉,收购TruvenHealthAnalytics将使得IBM获得4PB医疗数据。目前在美国基于疗效的产品定价成为新的趋势,Truven发布的医疗和药物的疗效证明数据指标变得越加重要。
医疗影像是行业最大数据集,是深度学习最重要的训练“原料”。2015年8月7日,IBM以10亿美元收购医学图像软件公司MergeHealthcare,给沃森和分析部门带来医疗保健领域最大的数据集—图像。据IBM研究人员估计,CAT扫描图、X光照片和乳房X线照片这样的图像在当下所有的医疗数据中的占比高达90%左右。MergeHealthcare专门研究存储、查看和共享医学图像的软件,Merge基于云的解决方案让医生能够在任何地方、任何时间访问系统中的任何图像。有了大量的医疗影像图片数据训练系统,将不断提升沃森智能诊断医疗影像中包含的病症信息。此后,2015年3月,IBM收购了初创公司AlchemyAPI。AlchemyAPI能够利用深度学习人工智能,搜集企业、网站、广告主发行的图片、文字等信息,并做出相应的文本、数据分析,无疑将有利于沃森在医疗影像诊断识别的能力。
4.2.从IBM沃森系统在医疗行业的应用来看,深度学习主要体现在互动、发现和决策三个方面
1、互动能力
IBM沃森认知系统能够与人类进行对话,可根据病史来了解病患并将具体情境和基于证据的推理带到互动中。病患可借助认知系统进行对话,医生可轻松从系统获得病患信息,以便开展相应治疗。所有这些互动均可以自然语言进行,从而可简化流程。这部分的应用典型代表是虚拟护士。
Ssense.ly:虚拟护士
Sense.ly是一家提供医疗保健服务的初创企业,其为用户提供了一位私人助理,她的名字叫做Molly。这是一位专职的虚拟私人护士,可以充当医疗服务提供商与病人的接触点。用户可以通过她向背后的医疗服务机构提供信息,然后获得相关建议。Sense.ly的平台集成了医疗传感、远程医疗、语音识别、增强现实等技术。患者用户可以在PC、平板或智能手机上通过问答会话与Molly进行沟通来获得服务。用户所提供的信息会被Molly转交给IBM的Watson人工智能系统。如果Watson认为病人提供的信息不足以进行诊断,Sense.ly就会为病人安排与医生的远程视频会议。此外,平台还可以连接用于四肢的传感器,以便医生了解用户的运动等指标情况。据公司透露,在一项试点计划中,该平台把病人的来电率降低了28%,而医生的生产率则提升了20%。目前Sense.ly已经与若干医院签约使用其服务,其大型付费客户数已达10家。
2、发现能力
医疗研究领域存在大量信息,IBM沃森通过加工大量医疗和病患信息可以允许医师将更多时间花在病患身上。认知解决方案能够通过快速分析所有相关临床研究的历史病患数据来更有效和及时地将病患与临床研究相匹配,这部分的行业应用包括医疗影像识别、药物研发等。
医疗影像识别是目前深度学习在医疗领域应用最广泛的领域。据统计,临床诊断的70%依靠医学影像。医学影像产业整体市场有着相当客观的需求规模。而在整个医疗检查费用中,影像检查的费用超过一半。一个影像医师大概每日需要检查的病人约100个,而每个病人的扫描影像大概有100-200张。医生需要从每个人的众多影像滚动中找出最需要的,并对其中的病理因素进行观察诊断,按一个医生平均每日工作8小时来计算,每个病人的扫描影像处理时间仅为4.8分钟。在这样的速度下,要保持持续的极为细致的观察较为困难。而另一面,即使在高精度的医学影像中,早期的病理结构往往十分细微,很难以被发现。
高速的阅览、图像的巨量和细微的结构造成即使是医学影像专家,在诊断早期病理结构时,精确程度也往往不能令人满意。计算机辅助诊断CAD(computerassisteddiagnosis)在20世纪90年代就已经开始出现,随着医疗设备的精度的不断提高,医学影像的精细程度也不断提升。单张医学影像承载的信息量也越来越大,细节呈现越来越精确,为计算机图形识别打下了物理基础。然而直到近几年,CAD依旧主要表现为事先输入的预先假设和病例特征结构之间的判断程序,身体各个部分的各种疾病的病理结构程序代码必须实现设计并录入,这样的流程十分缺乏灵活性和扩展性。模型往往过度简化,导致程序的诊断表现不能让人满意。有的甚至需要医师手动选取感兴趣区域ROI(regionofinterest),计算机识别不够精确,敏感度和特异性不够,漏诊(假阴性)和误诊(假阳性)的可能性还是比较大,因此对于一个放射科医师还是临床专业医师都无法起到很好的辅助作用,反而可能在使用的时候拖慢效率。极大地阻碍了CAD在临床医疗实践中的推广和发展。CAD至今依旧没有真正广泛应用到临床实践当中去。
深度学习具有强大的自组织性和容错性,适用于医用计算机辅助诊断,理论上来说,只要用于深度学习的病例样本足够多,对病理特征的识别和判断就越趋于正确。目前国内和国际市场上已经涌现出许多积极开发人工智能+医疗影像融合模式的公司,为医学影像领域的革命性进步带来希望。
DeepMind:AlphaGo开发者全力进军医疗诊断
AlphaGo开发者,谷歌旗下著名人工智能公司DeepMind公司已经进军医疗。2016年7月DeepMind与英国国家医疗服务体系(NHS)进行合作,将和Moorfields眼科医院一同开发识别视觉疾病的机器学习系统。而DeepMind的训练样本,源于Moorfields提供的100多万张病人的匿名扫描图。
此前于2016年5月DeepMind已获得许可访问英国国家医疗服务系统(NHS)的约160万病人数据。根据数据共享协议,DeepMind将获得伦敦3家医院,即Barnet、ChaseFarm和RoyalFree的病人信息。DeepMind将医疗大数据、病人多维度的相关病理信息和先进的人工智能科技结合,必能将诊断准确度得到划时代性的提高。
雅森科技:目前市场上唯一可以申请CFDA-3的医疗软件企业
雅森科技的技术原理不是做图谱对比,是把图像还原成数据矩阵,进行数据对比。这是雅森的核心价值。雅森科技运用SPM(StatisticalParametricMapping)定位精准分析,对医疗数据进行解读,在组织结构变化前,依据器官代谢物质、性状等因素做出检查结果,目前主要应用于脑影像的定量分析,未来应用范围扩展到肺部、甲状腺等。
以目前的数据库支持,雅森科技分析的准确率能够达到95%以上,随着更大量的正常人数据库的导入,数据库的维度,包括年龄段,病史,种族将进一步丰富,这种丰富不但可以带来分析准确率的提升,更可以实现个性化的诊断能力,为个性化的治疗提供更好、更智能的佐证。在脑部产品推出后,雅森科技已经接到了20多家医疗机构的订购意向。目前,雅森科技正在寻求新一轮融资。截止到目前,雅森科技的产品是市场上唯一可以申请CFDA-3的医疗软件企业。
Deepcare:利用SaaS模式收费
DeepCare专注于研发医疗影像检测、识别、筛查和分析技术,通过融合机器视觉、深度学习,和大数据挖掘技术。目前主要着力于硬件的人工智能化,帮助合作的医疗器械厂商低成本实现自动识别功能,将这些设备普及到乡镇一级的基层社区诊所。
Deepcare通过将识别诊断模块销售给硬件生产商,以类似Saas模式每年客户按照使用的模块进行付费。付费方式也可以是数据抵付。目前DeepCare已经和上海一家子宫颈癌抹片检测公司、苏州一家眼科仪器公司、重庆一家尿液检查机构和北京一家医疗影像云软件公司合作,为他们提供模块化的算法服务。目前光是肺结节这一种疾病已经积累百万张级别的有效数据。肺癌,乳腺癌,前列腺癌和结肠癌是重点的数据收集方向。
推想科技:专注于心肺相关医疗影像识别
推想科技利用影像识别算法模型,为医生提供辅助诊断方案。其原理为一部分影像数据作为测试数据,而模型学习剩余部分数据(训练数据),诊断测试数据,生成初级诊断报告,最后与医生正确的诊断报告做对比,得出诊断的准确率。
2015年9月,在肺部X光的诊断环境中,最后生成诊断报告与医生的诊断报告匹配率在90%以上,在胸肺疾病的诊断当中接近住院医生水平,可有效辅助医生的日常诊疗工作,减轻医生的负担。
目前,推想科技已有的诊断模型数据源涵盖与心肺相关的近10种X光影像,如心影增大、肺部积液、肺炎等。由于临床诊断的病症80%以上为常规病,推想科技先从肺炎、肺积液等X光诊断常见病切入。模型中部分使用的是开源的图像数据库“ImageNet”,其模型是基于低分辨率数据源优化的,识别的准确率能达到97%。目前推想科技正在寻求和较大型的医院合作,利用医院的影像数据验证技术的可行性。
Enlitic:教计算机如何根据医疗影像来进行诊断
从非常大的图像上判断一个很小的阴影状物体是不是恶性肿瘤,是非常难的任务。Enlitic采用卷积神经网络算法,通过向计算机展示数百张X光片、MRI核磁共振图像、CT电脑断层扫描照和其它的胶片来训练机器识别不同的损伤、疾病和失调症。Enlitic软件可以插入到医疗机构已经在使用的系统当中,从而分享或查看医疗图像。Enlitic可以与医疗技术公司进行授权合作,甚至共同进行产品开发。斯坦福大学的研究人员称,经过训练过的计算机在分析乳腺癌的显微图像上比人类要准确。
Atomwise:利用深度学习做药物研发
大多数药物研究需要耗时几个月甚至数年之久,投入的资金达到数百万美元。Atomwise充分利用深度学习技术,让药物研究的成本降至数千美元,而且能在几天内完成。例如公司在评估820万种化合物后几天之内找到多发性硬化症可能的治疗方法,公司在一个星期就找到了对抗埃博拉病毒的现有药物,成本不超过1000美元。
3、决策能力
IBM沃森可提供询证医疗,进而帮助决策并减少人为偏差。当前其认知系统在很大程度上充当辅助顾问的角色,这有助于医疗专业人员作出更加明智、及时的决策。例如IBMWatsonforOncology是一种可快速分析病患数据、快速增长的医疗文献、世界级专家的准则和专家经验的认知计算解决方案,可为临床医生识别将要予以考虑的个性化治疗方案。迄今为止,Watson已收录了肿瘤学研究领域的42种医学期刊、临床试验的60多万条医疗证据和200万页文本资料。