现如今,深度学习正在推动人工智能技术不断进步,但它有一个一直为人所诟病的缺点,就是需要大量数据支撑,那这个“大量”究竟是多少呢?近日,谷歌大脑负责人杰夫·迪恩(Jeff Dean)就这个问题给出了答案。
今年的VB Summit在美国加利福尼亚州的伯克利召开,杰夫·迪恩以谷歌高级研究员的身份参加了此次活动,他在接受媒体采访时表示:“如果你已经形成相当规模的客户互动业务,那就是时候该考虑引进深度学习技术了。如果你只有10个例子,那深度学习寸步难行;如果是10万个,那才是真正开始思考运用这些用技术的规模。”
10万个,这不是凭空捏造的数据。作为谷歌大脑团队的负责人,杰夫·迪恩多少懂“一些”深度学习的知识。他专注的方向是计算机科学和人工智能的广泛问题,早在上世纪90年代,他就已经把神经网络作为自己毕业论文的研究对象。
在他看来,机器学习注定会影响各行各业,但它的发生速度取决于行业的发展水平。
虽然机器智能引发了一系列社会担忧,甚至社会恐慌,但在人们真正把数据转化为“智能”前,我们还将面对很多障碍。为了让机器学习获得真正有价值的材料,所有数据都要经过处理筛选,这之中包含时间成本和(至少是第一时间的)重大人为干预。
“在现有的机器学习系统中,有很多都称不上是机器学习,”杰夫·迪恩说,“所以你还需要做许多事,比如一直收集数据。也许你会需要一些有人类标签的例子,然后必须写一些数据处理管道以生成数据集,最后再进行机器学习。”
为了简化建立机器学习系统的流程,谷歌近年来一直在努力寻求新方法,让机器学习能根据特定问题提供正确的系统。这是个艰巨的任务,业内也没有任何成功的先例,但杰夫·迪恩认为公司近期的创新技术可能带来了一丝曙光。
如今年早些时候,有研究称经训练的网络能根据选定艺术风格自行从ImageNet数据集中识别图像。前几日DeepMind在《自然》上发表了一篇论文,介绍了可以靠和自己下围棋学习经验的升级版Alphago。