当前位置: 首页 > 资讯

【原创】深度读心——华人团队基于CNN编解码动态视觉技术

论智       2017-11-03

2017年10月20日,Cerebral Cortex发表了Purdue大学由Zhongming Liu领导的华人团队的最新研究成果,基于CNN(卷积神经网络)编解码动态自然视觉。论文题目为《Neural Encoding and Decoding with Deep Learning for Dynamic Natural Vision》。


Cerebral Cortex


研究方法


当某个脑区被激活时,它需要更多的氧气,因此周围血管的氧合血红蛋白含量会急剧上升,去氧血红蛋白含量会相应下降。这两种蛋白的磁化率不同,因此血管内血液的磁化率会因两种蛋白比例的变化而不同。fMRI核磁共振成像技术能检测到这个变化,据此判断相应脑区是处于激活状态,还是静息状态。


fMRI原理


然而,大脑受到的刺激与相应脑区激活之间的关系却长期处于扑朔迷离的状态。因为脑区激活的波动非常复杂,包含大量信息,很难解读。随着机器学习和深度学习技术的引入,神经科学界才找到方法,分析脑区激活与大脑受到的刺激的对应关系。


在以往的研究中,CNN的使用范围限于静态视觉,学界尚不清楚CNN是否适用于解释动态视觉和脑区激活的关系,如果适用,有效性有多高。Purdue大学的Zhongming Liu团队此次发表的研究成果,使用CNN编解码了3人、972个视频剪辑、11.5小时的fMRI数据,成功将CNN编解码推进至动态视觉领域。


via Cerebral Cortex


此次使用的fMRI数据独立于之前的研究,样本数据也比以前的研究大,覆盖也更广。训练时,记录fMRI数据重复进行了2次;测试时,记录fMRI数据重复进行了10次。fMRI数据取其平均值。测试时重复10次,能有效地提高信噪比,避免扰动数据的影响。理论上增加训练的重复次数能够进一步提高信噪比。然而,相比测试时使用的视频剪辑,训练用的视频过长,无法在相当的时间内重复10次,因此只重复了2次。


团队构建了一个8层的深度学习网络,其中包括5个卷积层和3个归类层。3个归类层中,倒数第二层实行了一个语义空间,最后一层使用softmax函数输出类别的概率向量。


受人脑启发的人工神经网络


受人脑启发的人工神经网络

训练CNN编码时,将CNN的输出经log变换后,使用预定义的HRF函数(血液动力学响应函数)处理,降采样后再与fMRI数据进行对比。以往的研究常常使用通过模型逼近的HRF函数,此研究没有采取这一做法。团队担心源于fMRI的HRF函数可能会存在过拟合的问题,因此最后使用了预定义的HRF函数。最后的降采样,则是为了确保采样率与fMRI数据的采样率匹配。


归类器设置了15个视频剪辑,训练了20500段人工标记的视频剪辑,测试了3500段视频剪辑,成功实现了重建视频并归类的反卷积网络(De-CNN)。


重建视频


主要成果


此研究将CNN编解码视觉由静态推进至动态。使用的CNN,在编码方面,针对不同的ROI(感兴趣区域),在每块ROI内,平均能达到0.4到0.6的预测准确度。跨ROI的预测准确度也有0.25-0.3.


不同区域的预测精确度


不同区域的预测精确度

此研究不仅将CNN编解码视觉由静态推进至动态,同时也由同一被试推进至跨被试。本次研究使用通过一个被试者训练的编码模型来预测另一个被试者的脑区激活情况。同理,使用通过一个被试者训练的解码模型来解码另一个被试者的fMRI数据以重建和归类测试视频。以往的研究遇到的一个困难就是训练一个被试者需要获取长时间的数据,因此很多时候增加被试数量并不现实。此研究表明CNN训练结果可以迁移到不同被试者,以后的研究增加被试数量要更容易。


跨被试


同一被试与跨被试的准确度对比(左:视觉重建,右:语义解码)

人类的动态视觉,包括前馈(feedforward)、循环(recurrent)、反馈(feeback)三个方面。而此次研究使用的CNN虽然只实现了前馈,没有涉及循环和反馈,但仍构成了一个有效的预测模型。并且,此CNN与视皮层构成功能对齐。也就是说,CNN处理抽象视觉信息的中间层,和视皮层的分层架构存在一定的相似性。


CNN与视皮层的功能对齐


CNN与视皮层的功能对齐

此研究使用的方法也有创新之处。


此研究使用了可视化单个立体像素的方法,而不是传统的可视化CNN的单层或单元的做法。这为分辨脑部不同区域的独特功能提供了富有启发性的洞见。


CNN训练时,每一层的表征构成了巨大的特征空间,团队使用PCA(主成分分析)将其成功降维,得到一个维度低很多的特征空间。降维后的空间保留了99%的方差,也保持了与fMRI信号分布的相似性。使用PCA降维特征空间也减少了训练数据有限导致的过拟合风险。此研究表明,对于模型训练而言,PCA是一个健壮、有效的技术。使用PCA降维空间,可以显著提升模型的吞吐量。因此,此研究使用的模型具有通用化的潜力,可用于处理其他类型的视觉刺激。


用于解码语义表示的倒数第二层与类型定义无关,因此可以被通用化并移植,用于解决其他问题。


改进空间


在测试时,播放视频剪辑前,被试者会观看视频剪辑的首帧12秒,播放视频剪辑后,被试者会观看视频剪辑的末帧12秒。让被试者观看静态图像可能影响研究结果。

虽然此研究构建的CNN不仅能预测腹侧流的活动,还能预测背侧流的活动,但是,前述CNN的功能对齐仅限于腹侧流。团队怀疑,这可能是因为背侧流主要参与处理物体的空间位置信息以及相关的运动控制,而这更多地依赖于循环和反馈。这是本CNN没有实现的。以后的研究如果加上循环和前馈功能,效果可能会更好。

编码模型对最后部的解释力极弱,这一区域的信噪比较低,对同一被试者的重复性也较低。此前的研究也存在这一问题,具体原因不明。

人类的视皮层可能更深(大于20层),因此使用一个更深的CNN可能效果更好。

此研究使用的是CNN网络,没有与其他类型的网络(比如RNN 循环神经网络)比较效果。

开放数据和开源代码


此研究使用的数据和代码可至Purdue大学Integrated Brain Imaging实验室网站下载。


研究团队


研究团队全部由华人组成。除了一人本科即在Purdue大学外,其余作者皆在国内接受本科教育(浙大三人、清华一人、台大一人)。


团队


Haiguang Wen Purdue大学电子和计算机工程博士生,研究兴趣为使用信息图像处理技术及机器学习解码脑部活动。

Junxing Shi Purdue大学Integrated Brain Imaging实验室研究助理,负责设计和训练CNN和RNN分析图像和视频,应用机器学习技术分析大规模的人类fMRI数据,管理GPU集群。

Yizhen Zhang Purdue大学电子和计算机工程硕士生,研究兴趣为信号和图像处理。

Kun-Han Lu Purdue大学电子和计算机工程博士生,研究方向为使用多模态MRI方法评估小动物的神经调制和神经炎症。

Jiayue Cao Purdue大学生物医学博士生,研究兴趣为深度大脑模拟、神经网络和神经信号处理。

Zhongming Liu Purdue大学Weldon生物医学学院副教授。

机器人网原创文章,未经授权禁止转载。详情见转载须知

本文来自机器人网,如若转载,请注明出处:https://www.jqr.com/news/008416