6月7日是高考第一天,915万考生走进了考场,迎战语文、数学两门考试。考场周边道路封禁、汽车禁止鸣笛、热心司机为学子保驾护航……整个社会都以极大的热情关注着这场一年一度的“盛事”,因为无数年轻人的人生将因这场考试而发生变化。
今年高考的受关注程度一如往昔,除了某某同学丢失准考证一类的“假新闻”,一名特殊的考生引起了媒体的注意。今年,由国家牵头研发的数学高考机器人将踏进考场,和考生们同台竞技。
机器人挑战数学高考,目标110分
此次参加考试的数学高考机器人AI-MATHS是国家863项目“基于大数据的类人智能关键技术与系统”中的子课题“初等数学问题求解关键技术及系统”,开发方成都准星云学是863类人答题项目中电子科技大学承担的数学攻关组的对外合作单位。
国家科技部863重大专项由知名人工智能企业科大讯飞牵头,该项目是其“超脑”计划的重要组成部分。2014年,科大讯飞发布“讯飞超脑”计划,核心就是让机器从“能听会说”到“能理解会思考”,实现认知智能领域的突破。当时讯飞董事长刘庆峰曾表示:“我们的目标是在不久的未来让类人答题机器人参加高考,并且考上一本,甚至清华、北大和中科大。 ”
3年后,高考机器人如约站上了高考考场。
据悉,6月7日数学考试结束后,全国卷及部分省市的数学试题将在第一时间被输入AI-MATHS,届时机器人将完全与外网切断联系,仅通过自身的人工智能程序进行读题、解答和答案输入。机器人将同时作答多份高考数学卷,答完题的考卷将通过打印机被打印出来,考试时间为2小时。
高考机器人的诞生
2014年,科大讯飞推出“超脑”计划。作为计划的一部分,讯飞开始研发类人答题机器人,目标是让机器人在未来三到五年内通过高考,到2020年能考上一本。讯飞此举并非是单纯想做个会考试的机器人,考试作为一种知识考察形式,兼具标准性和灵活性,它着重考验的是交互、知识管理、学习和推理等方面的能力,而这正是服务机器人目前面临的技术难题。攻克高考机器人这个难关,教育、医疗等相关领域的机器人将获得重大突破。
AI-MATHS的开发者是成都准星云学科技有限公司。这是一家专注于人工智能、大数据技术在教育领域落地应用的高科技企业,隶属于清华大学苏研院大数据处理中心。
2015年国家科技部立项时,准星云学依靠过硬的研发实力,一举中标高考机器人的数学应考项目,成为了数学组别的组长单位。这次中标对于准星云学来说是“喜忧参半”。“喜”的是公司有机会参与国家项目,集合业内顶尖学者对人工智能难题发起攻关;“忧”的是,根据讯飞和国家科技部的计划,高考机器人将于2017年应考,这意味着他们的研发时间只有2年。短短七百多天内,他们就要研发出一款完全具备一个18岁应届文科生的数学理解、逻辑思维和计算能力的机器人,其中的难度和压力可想而知。
不仅仅是数学关,“超脑”计划的高考机器人项目还包括另外两个独立的人工智能程序,分别主攻语文和文综。对比来看,数学是其中相对技术成熟的,语文和文综涉及到的主观题部分对人工智能来说存在一定挑战,尤其是情绪、情感以及意识形态,对高考机器人都极有难度。
经过两年不懈开发,今年年初,数学高考机器人AI-MATHS正式与公众见面,而语文高考机器人和文综高考机器人却遗憾缺席。2016年,准星云学曾称机器人将参加2017年文科高考,届时机器人将在全封闭环境中,在有监考老师和公证员的情况下,和全国文科高考生同时考试、同时交卷,并力争考上一本。但就目前的消息看来,机器人参与这两门考试还为时尚早。
高考前的热身
日前,AlphaGo的升级版Master在乌镇迎战柯洁,并以3:0的比分力克人类棋手,真正站上了围棋界的顶峰。社会上对人工智能的恐惧还未散去,一波未平一波又起,人工智能又要挑战高考,这一次,它的竞争对手是普通的学生。难道人工智能真的战无不胜、攻无不克?
事实上,AI-MATHS并非横空出世,早在今年年初,它就曾与毕业班的学生们“切磋”过考试技艺。2月23日,成都石室天府中学高三文科班的43名学生迎来了一场“人机大战”,他们的对手正是AI-MATHS。这也是研究3年多以来,高考机器人首次与学生进行对决。
2个小时后,考试结束,双方的成绩出炉:43名学生平均分106,而高考机器人只有93分——刚刚及格。事后据研究人员解释,虽然AI-MATHS已经学习了小学到高中的7000多个考点,“运算量可达2的800次方”,但是当遇到带有常识性描述的应用数学题时,机器人读不懂题目,只能靠猜,这就大大降低了它的正确率。
3月初,来自全国10家高校和科研院所的20多位专家对AI-MATHS进行了中期检测。根据高考机器人的研发进度,本次考卷总分120分,按照文科高考水平和方式出题,监测组自带两套密卷。考试结束后,高考机器人分别取得了86分和87分的成绩。虽然这个分数还远达不到“高分”标准,但该成绩代表了国内先进水平和中国人工智能技术的高度。最后,AI-MATHS顺利通过了检测。
日本考试机器人
AI-MATHS历经3年研发,如今终于站上了考场。而放眼全球,可以发现高考机器人并非我国独创,它也一直是美日人工智能机构的重点努力方向。
2011年,日本国立信息研究所(National Institute of Informatics)开始研发应试AI机器人Torobo。这项目被称为“东大机器人项目”(Todai Robot Project),其目标是在2021年通过日本顶级学府东京大学的入学考试。这意味着该项人工智能技术届时有能力被任何一家日本大学录取。
但不幸的是,从2013年开始,Torobo就一直在重复失败,考上东大对于它来说似乎成了奢望。日本大学入学考试总分为950分,2013年和2014年,Torobo表现惨淡,一时成为各国媒体的笑料。到2015年,Torobo历史性地取得了511分的高分,而日本学生的平均分数为416分,这意味着机器人可以进入全日本441家私立大学和33所全国性大学就读。2016年,Torobo获得了525分,超过了80%的人类学生,但它和上一年相比进步太小,离进入日本顶级的东京大学还有不小的差距。
2016年Torobo考试成绩
复读了这么多年还是考不上,东大的研究人员也泄气了。现在,Torobo已经退出高考机器人行列,转战数据分析领域,它的下一步计划是帮助工业机器人提高生产效率。据悉,之前参加考试时,虽然Torobo的英语水平非常差劲,但它在数学、历史等主要依靠运算和记忆的科目考试中表现十分出色。
美国考试机器人
除了日本外,美国也对应试机器人非常感兴趣。
Allen Institute for Artificial Intelligence(AI2)是一家致力于完整解决人工智能问题的公司,他的投资人Paul Allen,一个身价上百亿美元的富豪,同时也是微软的联合创始人。
AI2下主要有4个研究项目:Aristo、Semantic Scholar(语义学者)、Plato(柏拉图)和Euclid(欧几里得)。其中Aristo是旗舰项目,目标是设计出能通过美国科学考试(四年级、八年级、十二年级)的人工智能程序。该项目的难点是人工智能如何模拟基于知识点提炼的学科知识框架体系,因为相比较于“阅读”教科书,通过建立知识树来学习知识点是个更有效的学习方式,且能避免各种带有隐喻的语言和语境。
Euclid项目专注的是解决数学语言和几何图形的理解问题,涉及到图表理解和NLP(自然语言处理)技术;Plato研究的是机器视觉和图像技术,AI2希望能建立一个完全由静态图像导出的信息组成的数据库;Semantic Scholar研究的是词语提炼和关键词抓取,该项目主要服务于文献检索。
这3个项目围绕Aristo展开,为考试机器人提供各方面的技术支持。据悉,Aristo的前身是西雅图人工智能公司Vulcan的项目Halo。早在1989年,Paul Allen就投资建立了Vulcan,用于管理自己的私人财产和应对各种前沿科技挑战。
图1 左侧为试题,右侧为解题思路和正确答案:(a)CE=2,计算BD长度;(b)∠B=40°,AM、AC为角平分线,计算∠AMC;(c)AD为中垂线,AB=6,BD=3,计算∠BAC
图2 图中哪一幅图正确表示了植物吸收水分和养料的循环
2015年,AI2对Aristo进行了一次测验。研究人员选择了纽约地区的一份科学试卷,科目涵盖生物、数学和几何,题型复杂多变,有表述题、图表题、选择题(单选/多选)等。测验结果让人失望,Aristo没能通过全部的考试。据悉,在非图表类的多项选择题上,Aristo的正确率在75%(四年级)、63%(八年级)、41%(十二年级),可见当面对需要组合知识点进行解答的高年级试题时,机器人遇到的挑战更大。而低年级的试题多流于知识点表面,所以大多已被收录进数据库中。
Aristo在图表题上的表现同样十分具有研究意义。当面对如图2所示的图表型选择题时,机器人的正确率高达70%;而当它遇到的是图1这样需要把图表转化成代数方程的题目,它的正确率就会下降到49%。
和AI-MATHS的研发团队一样,AI2开发考试机器人并不是为了娱乐。如果Aristo通过了标准化的入学考试,那是否意味着机器人变聪明了?AI2的回答是:不一定。在这个项目中,最关键的问题就是知识的呈现:怎样在教科书中呈现所有内容,使机器人能够读取、理解并运用这些知识。测试结果表明,机器人更擅长运行流程性质的程序,它还是过于依赖已经设定好的程序。虽然机器人失败了,但是它对于人工智能的研究具有非凡的意义。Aristo的失败都伴随进步,这就为量化距离真正实现了智能化的差距提供了数据,虽然Aristo至今都未能通过考试,但它近年来一直在持续地为学界带来技术上的重大突破。
机器人“通过”逻辑考试
考试作为标准化的测试手段,它能较为客观的测试机器人解决问题、理解语言、完成复杂任务的能力。但对于人类来说,这些能力只是基础能力,人工智能要成为“人”,首先就要建立“自我、本我、超我”的意识。这是更上层的要求,也是更艰巨的挑战。2015年,纽约伦斯勒理工学院为机器人安排了一场特殊的“考试”,在这场测验中,机器人要面对的正是如何认识自我。
主导这场考试的是纽约伦斯勒理工学院的教授Selmer Bringsjord和他的团队。研究人员对三个NAO机器人进行了一项逻辑测试,理论上这类问题只有人类能够解答。测试的问题是一个经典的“智者”谜题:曾经有一个国王召集了3名智者,要他们比试谁是最聪明的人。他在他们头上各戴上了一顶帽子,并给出提示:比赛是公平的;你们头顶的帽子是蓝色的或白色的;第一个正确判断自己帽子颜色的人获胜。3人只能看到他人的帽子,看不到自己的。
这个测试其实很简单,如果比赛是公平的,那三人头顶的帽子肯定颜色相同。智者只需答出他人头顶所戴帽子的颜色就能获胜。机器人版的“帽子问题”改变了测试形式。3个NAO机器人被编程为认定它们之中有两个接受了“噤声”指令,即不能开口说话。一般而言,机器人是没有自我意识的,它不能判断什么是“我”,也不知道什么是“你”,什么是“他”。
但在测试过程中,当研究人员询问机器人“谁没有被要求禁止说话”时,出人意料的一幕发生了,一个机器人起身回答道:“我不知道。”继而它又补充说:“现在我知道了,我就是那个人。”
要通过这个测试,机器人必须理解测试规则,能听到自己的声音,并能认识到自己和其他机器人都是独立的个体。这个NAO通过的是一种“数学上可验证的自我意识”,虽然它可能未必真正能理解独立个体意味着什么,但这种人格上的区分能力比技术上的问题解答能力更有资格让人类觉得可怕。
人工智能面临的挑战
近年来,人工智能机器人的发展可谓神速,各国研发的这些机器人虽然还没有达成“通过考试”这个目标,但是它们在几年内就能达到人类的一般水平,并且在某些领域实现了超越。那我们是否该惧怕人工智能呢?人工智能真的能在几年内颠覆教学体系,让人类考生望洋兴叹吗?
答案显然是否定的。对待人工智能,无论是乐观的、消极的、畏惧的……这一切都有“自我催眠”之嫌。不可否认的是,现阶段人工智能的发展很大程度上是建立在超级计算机技术和大数据处理基础上的,真正的智能技术还处于发展阶段。
按英国布朗大学助理教授Stefanie Tellex的说法,就3D图像处理技术而言,缺乏数据是全球学者遇到的最大问题,目前学界甚至都没能建立起一个足够庞大的数据集。而人工智能的另一项关键技术NLP,虽然已经发展了数十年,但一直处于尴尬的停滞期,多年来未能出现合理有效的解决方案。
总之,人工智能面对的困难还有很多,就解题而言,它遭遇的最大难题主要有以下4个:
因果关系。人类可以通过学习新知识来持续更新他们对于过去、现在和未来的认识,这比Siri和Wolfram Alpha处理信息的方式要复杂得多。
知识的不确定性。布尔运算只能告诉我们结果是“真”还是“假”,但是大部分知识都带有不确定性,如“较大汽车通常具有较高的每公里油耗”,这种表述是不精确的,也不能用精确地描述来做判断。
矛盾处理。人类的大脑知道如何求同存异,能基于更高的框架提取有用的信息,所以人类的意见往往相左,但它们都是合理的。
理解语言和语境中的各种隐喻。隐喻不只是一种修辞手法,它更多代表的是人类的思维方式和认知方式。人们能在两个看似不相干但具有一定联系的物体/意义上引申出代表相似性的第三个物体/意义,如对牛弹琴,这对于目前的人工智能来说是难以实现的。