眼下人工智能(AI)很热,门派也很多,在“人工智能(AI)”与“智能增强(IA)”经历了多轮“此消彼长”之后,未来的“江湖”会怎样?在“深度学习”被很多巨头奉为有关生死存亡的技术和能力之后,谁会是取代“deeplearning”的下一个“AI杀手”?当IT巨头都在角逐“类人脑计算”时,“类人脑”的现实之路还有多远?作为为全球芯片巨头,英特尔有什么样的AI布局?英特尔中国研究院院长宋继强会给出什么样的答案。
“AI”和”IA”需要”在一起”
这个世界上的很多东西是此消彼长、风水轮流转的,就像“人工智能”和“智能增强”这对兄弟,在产业界的交替。但要加快AI的商业化进程,他们需要“手拉手”。
IT和武侠江湖很像,也分学派和流派。关于人工智能(ArgumentationIntellingence,AI)与智能增强(IntellingenceArgumentation,IA),科技预言家约翰·马尔科夫在他的书《与机器人共舞》有清晰的分类和定义。
五六十年前,当一拨人投身于“未来的计算机能够建立起和人一样的智慧”(人工智能)的时候,另一拨人扎进了“交互式计算”里,认为计算机更多的是在增强人的智慧而非取代人类,去做了“智能增强”。前一拨人认为,计算机是可以独立完成一些事情,不需要人的参与。后一拨人认为,计算机始终是无法脱离人,需要以人为中心,所以他们更多去做“智能增强”。
宋继强表示,要让机器独立具备人的能力,不是一件容易的事情,也遇到一些瓶颈,所以在早些年AI热过后,又沉寂下去。而去做机器与人协作的这拨人,希望提高机器效率,很重要的一个维度就是解决“Humanintheloop”(人机交互)。
这两拨人平行研究,偶尔会有交集,并且此消彼长。当AI特别热的时候,人机交互就会沉寂下去,当人机交互热的时候,AI又会“消停”下去。就像上世纪80年代,专家系统很火,给计算机加上一些领域专家知识,貌似就可以替人去做一些决策,于是很多人工智能的人纷纷涌向不同的领域。但当发现专家系统遇到瓶颈,于是又沉浸下去。往往人工智能处于低谷之时,人机交互界就开始“粉墨登场”,比如2008年到2012年、2013年,IA领域的普适计算“PervasiveCompudting”很热,很多顶尖的学者又涌向这个领域。这两年AI热起来,人们有开始纷纷转向人工智能领域。
从宋继强的观点来看,要想加速人工智能的商业应用,这个两条平行线是应该合二为一的。目前看,独立的AI,比如说AlphaGo在人给它进行大量训练之后,在与人下棋的那段时间是可以独立完成一些事情,甚至某些方面超过人,但是到目前为止我们还看不到AI在通用和全面能力上赶上和超过人的迹象,而且还非常遥远。
在构造基于AI的自主机器里面有三个关键的维度,第一步是感知,二是认知,三是行动,要把这三个步骤连贯起来形成一个闭环。
从“感知”信息的维度看,把物理世界的各种各样的信号变成计算机里的数字信号,目前已经取得了一定进展,也有了一定的套路,比如字符识别、语音识别,图像识别等,已经有非常大的进展,但也还未完全穷荆从“行动”的维度看,也有了很多突破,比如“机电一体化”方面的进步。
而其实最难突破的是“认知”。因为他包含太多的不同行业的知识,包括对心理学、对人、对物体,对知识等如何建模。目前看,这个维度还没有达到人类可用的程度。
宋继强举了从语意理解例子。比如一句话是声音信号,变成了文字,这个文字不同的语言文字有不同的表示。中文的“太阳”和英文的“Sun”,他们对应都是一个物体,这个符号太阳与你语句里边的其他的词,会形成一些关系,到底你说这句想表达什么,这个语意理解要从你这个感知层的一些符号去推算。
这其中还要消除“语义歧义”。比如“乒乓球拍卖完了”这句话,有好几种意思表达,究竟是“乒乓球拍,卖完了1还是“乒乓球拍卖,完了1这需要结合上下文,需要结合语境才能准确了解。
除了“语义歧义”还有“隐藏信息、没有给全的信息”。我们人在对话中不是每句话都把所有信息都说全的,人是很容易识别,但是计算机要做到很不容易。
再比如你说“帮我去冰箱中拿可乐”这句话,人很容易就可以完成帮你拿可乐这一系列的动作。但机器人是“蒙”的,它得算很多,因为缺失很多信息,首先冰箱在哪儿?什么是可乐?长什么样?从这儿到冰箱那儿要怎么走过去?太多事情他不懂,这里面涉及很多知识,需要将很多知识库建起来,放进去,机器人才能很好地去完成这一动作。(知识库是AI竞争的下一个焦点,稍后我们会再专门探讨它。)
在知识缺失或者信息不完整等背景下,“智能增强”派上了用常比如说,智能机器人通过语音、屏幕交互,把缺失的信息以比较自然、而不是太笨的方式呈现给用户,让用户替他去解决。比如机器人已从网上搜来了一些知识,可乐有几种:减肥的,红色的(传统多糖的),它就可以问人,“你要哪种可乐?”机器人不知道冰箱在那里,机器人可以问人,“这个冰箱是不是在某个厨房”,“或者是某个餐厅里边呢?”这样问题人是可以接受的。我们通过一部分人工智能,一部分人机交互,把这个闭环形成,让机器人用起来,加快商业化应用,机器人的智慧成长之路就可以加快。如果要等待机器人智慧独自成长,达到人能够用的程度,还需要很久。
我们都知道一个事物的快速成长有两个途径,一个是靠军事使用,另一个是靠商业推动。军事不是我们讨论的范畴,而商业应用和商业成功是我们可以看到可能让机器人成长起来的最好路径。通过AI+IA这个路就没有那么远了。
德国是全球机器人做的最好的国度,宋继强最近去德国与他们做机器人的院士进行交流。院士坦言,即便是最厉害的深度学习也不可能将识别准确率做到100%,算法只是其中的一步,事实上机器人要运行稳定、要可靠,还有很多维度的事情要完善,还有很多问题要解决。加入“智能增强”的思路上,德国院士与宋继强的观点是一致的。
知识库是下一AI竞争关键点
当大家都把目光投注于“深度学习”的时候,其实另一个维度是被忽略的,“知识库”才是未来左右和决定智能设备“价值观”的那个隐形“杀手”。
目前大家对人工智能的关注焦点是算法,“深度学习”尤其火,因为深度学习处在图像识别、自动标记、文本语音转换、自动翻译及语义分析的核心,所以IT巨头们都将深度学习视作悠关生死存亡的技术和能力。应该说,深度学习是目前解决AI问题的最好的方法,但并不排除未来还会有更高效的AI算法出来,事实上解决人工智能的问题,不同的工具在不同的维度有不同的优势。
宋继强表示,另外一个维度是中国应该关注的,就是前面提及的“知识库”(Knowledge Vault),这是最AI的另一个难题。
麻省理工(MIT)等是比较早开始做知识库的机构,当时为了让机器人在室内工作,需要建立一个知识库,主要覆盖室内的常识(OpenMindCommonSense)。比如让机器人从室内到门外,门是关着的,机器人看到门是关的,它是不知道如何出去的,门牵扯到哪些?开关如何操作,门才可以开,这是一套连接的知识网络。当时学术界做这样一套常识,投入很多人力,几届学生一起做才完成,用半结构化的短句,把知识做在里面,这些知识通过一定的模式可以查询出来。仅仅是一个室内场景,建立常识库就很不容易,而且稍稍变化一下环境就不适用,比如在国外建立的常识库,拿到中国就未必适用了。
在宋继强看来,知识库是人工智能里边最复杂的东西,因为知识日新月异。他举了一个非常浅显的网络语言的例子,现在年轻人三天两头换新词,如果不更新这些词汇,你就不懂他讲的是什么意思。
宋继强提及了谷歌公司正在建立全球最大的知识库(KnowledgeVault)的事情,可能这个信息还没有引起更大的关注。谷歌通过算法自动搜索网上的信息,利用机器学习将数据变成知识,到目前,谷歌已经收集了16亿件事实,而谷歌表示这个知识库要建立起来至少需要十年的时间。而事实上,这是一个非常有“野心”的事情,因为一旦建立起来,意味着全球的智能设备都有可能需要去使用其知识库,它就有可能左右这个世界的所有智能设备。
我在网上搜索了一下国外分析师对谷歌正在构建知识库的评价,还是吓了一跳。比如,“知识库除了改善人机交互之外,也会推动现实增强技术的发展,未来知识库可以驱动一个现实增强系统,让我们从头戴显示上了解现实世界中的地标、建筑、商业网点等信息”。“知识库还能够改变我们研究同人类社会的方法”。“甚至可以对未来做精准的预测”。“知识库改善人们的生活和娱乐,甚至是战争的方式。”
目前全球许多大公司都在构建知识库。在宋继强看来,构建知识库这个事情也只有大公司可为,因为做它时间跨度很长,小公司根本支撑不下去。而且这个知识库必须如果被别人利用了,智能设备的观点都会发生变化,它会影响机器人以后的价值观,重要性不言而喻,不能被短期利益驱动。而且知识库和文化和地域有关,我们不可能一大堆的设备总用英语去查询,所以它需要本地化、中文化,美国做的知识库肯定不太适合中国。所以中国的大公司应该注意到这个维度。中国的公司中,宋继强认为,百度和腾讯都有可能做这个事情。
除了知识库中国需要发力,宋继强认为中国应该发力的第二个方面是自然语言处理。因为在认知推理中,很重要的一个关键是如何在比较少的数据中,推理得到有意义的结果。在其中很多是与自然语言相关,而中国在自然语言理解上有优势,比如科大讯飞已经带起了一个联盟,在一起做这件事情。从视觉识别来看,国内和国际没有太大的区别。而在自然语言识别上有很多差别,我们推动AI往下走,很多技术与之密切相关。如果在知识库和自然语言理解上做好,我们才敢把更多的事情交给机器人。
CPU、FPGA和ASIC
类人脑计算最接近于AI需求,但它的商业化进程还很遥远。所以在可选择的商业化AI芯片上,从CPU到FPGA到ASIC,现在可以进入ASIC了。
谈及AI离不开计算力,从字符识别语音识别到图像识别,对计算能力的要求是一步一步往上走的,这一步一步的往上走离不开计算能力的大幅提升和成本的大幅下降。现在AI要求计算能力不断提升,有的公司也采用图形加速器去做训练、去做识别,遇到的难题之一就是计算能力提升,功耗也变大。而很多智能设备是移动的,不管是无人车还是服务机器人,都要求续航时间,都对功耗降低有迫切需求。而做AI智能设备有三步,识别、推理、行动,所以不仅仅是要它进行识别,还要它进行分析、挖掘信息,计算能力和功耗之间的矛盾就变得越来越突出了。
怎么解决?一个方式是用软件的方式。人工智能是一个软硬结合的系统,其实不是纯软件的事,软件可以做一些算法优化,把计算量砍下来。第二个是硬件的方式。就是用很经济、很有效的方式使用电力。这其中也有几类,最通用的方式是CPU,比如英特尔的酷睿系列、至强系列,这些通用的处理器,最通用的同时功耗也高。另一种是专用芯片ASIC(Application-SpecificIntegratedCircuit),它可以做到功耗很低,但是性能很强。ASIC方案是一个终极解决方案。处于软件和硬件方式中间的是FPGA,FPGA的功耗和通用性是处于中间档,功耗比CPU和GPU都低,但他有一定的配置灵活性,配置起来是要靠写硬件的代码。而且它的成本是比ASIC要高的,所以当量还不足以支撑大规模制造专用芯片的时候,通常会采用FPGA。
讲清楚CPU和FPGA以及ASIC的关系,大家就很好理解为什么英特尔要收购Nervana这家初创公司的原因了,因为Nervana是做专用AI芯片的,是AI的ASIC供应商,现在的AI需求到了需要专用AI芯片的时候了。据称,Nervana处理器速度将可达到GPU的10倍,而投靠英特尔,可以让Nervana获得强大的芯片制造能力、资金能力和生态链整合能力。所以这桩婚姻会非常自然。
宋继强表示,从数据显示来看,目前在全球计算中心的计算量中,有10%是与AI相关,虽然看起来占比还不是很高,但是成长性超快,还在加速成长中,而且AI有引擎带动效应,所以英特尔加速这个部分的布局是非常顺理成章的。
在AI这个路径上看,从CPU到FPGA到ASIC,英特尔做了很好的布局。讲完这条线路,大家一定会关心另外一条线路“类人脑计算”,因为那条路其实才更接近于AI的需求。而目前包括IBM、谷歌以及中国都在加速在这个路径上的布局。作为全球芯片的巨头,英特尔不做类人脑芯片的研发吗?
宋继强表示,英特尔并非不做,只是现在还没有到透露的时候,一般大家看到的都是已经相对商业化的英特尔技术路线,对于未来的研究,英特暂时不会公布。
事实上,我曾在几年前参加英特尔在硅谷举行的英特尔全球研究院展示日活动,那时,英特尔就已经在进行“类人脑芯片”和计算架构的研发,主要是放在美国研究院,只是现在还没有到公布的时候,而全球的类人脑计算都还处于比较早期的阶段,商业化之路还很遥远。