更新时间:2025-05-16 14:44作者:佚名
一项研究表明,人工智能(AI)可以直接减少人类听觉皮层区域的神经活动中的语音。但这并不意味着AI可以“阅读思想”。

1月初,三个国际科学研究团队试图破译大脑的口头信号。他们使用大脑数据来训练可以将大脑活动数据转换为语音的人工智能系统,转化率精度约为40-80。尽管所有三个科学研究团队都表示很难收集大脑活动数据,但到2月初,许多人仍将这一研究结果解释为“ AI思维阅读”的开始,甚至“预计它将意识到脑部计算机界面,以便再次说话,以便再次说话。”
以前,本文提出了相关报告。这项研究仍处于早期阶段,只有在人们讲话时只能收集和解释大脑信息,并且不能为那些完全失去语言功能的人服务。这是因为就当前的技术而言,与大脑相关信息的收集需要由外部声音生成。
演讲者所说的话通过媒介传递给听众耳朵的耳膜。耳膜振动,然后通过聆听过程通过小骨头扩增到内耳,刺激耳蜗中的纤毛细胞,从而产生神经冲动。神经冲动沿听觉神经传播到大脑皮层的听觉中心,形成听力。
成立听证会的过程是有序而有序的。因此,研究人员在人脑的听觉皮层区域收集了神经活动,并使用深度学*和语音合成算法来重建受试者的听觉刺激。这项研究的结果发表在1月下旬的《自然》杂志(科学报告)上。
《科学报告》成立于2011年。它是顶级期刊《科学报告》的子书籍。它采用在线出版物并实施开源系统,重点是在包括生物学,化学,物理和地球科学在内的所有自然科学领域的初步研究。 2017年,《自然》的影响因子为4.122;《科学报告》(自然生物技术)的影响因子为35.724,也是《自然》杂志的子问题,是35.724。
重建听觉刺激是指从诱导神经活动的组中找到最佳的听觉刺激近似值。这是一项逆映射技术。这项研究将从人类听觉皮质区域记录的神经反应中重建原始的口头刺激。
这项研究中有五名受试者是接受癫痫但听力正常的患者,使用皮质脑电图(ECOG)的植入式脑机界面(ECOG)在听到持续的语音时测量患者的神经活动。
美国神经科学家菲利普·肯尼迪(Philip Kennedy)的电极草图。肯尼迪是世界上第一位将电极植入人脑的科学家。 1998年,在获得美国食品药品监督管理局(FDA)的临床批准后,肯尼迪将特殊的电极植入了完全麻痹的患者中。通过几个月的训练,患者可以通过专注于想象来控制小鼠运动。
五个受试者中有两个具有植入左脑的高密度下硬膜下部电极,主要覆盖上颞回(STG)。五个受试者中有四个被深度电极植入,覆盖了听觉皮肤区域(Heschl's Gyne)。
随后,这五个主题只需要聆听声音,而大脑计算机界面将使用模型重建语言信息,并最终通过计算机读取它。受试者收到外部语音刺激后,大脑听觉皮层的神经网络开始活跃,并且电气信号也被植入大脑的电极接收。收集这些信号,研究人员从中提取有效的信息,包括低频(LF)信号和高伽马包封(HG)。最后,根据这些信号重建声音。
为了更准确地重建语音,研究人员使用了两个回归模型和两个声学表示来探索哪种重建方法在四种组合中具有最佳效果。这四个组合是:线性回归+听觉图(AUD SPEC);线性回归+ Vocoder;非线性深神经网络(DNN) +听觉图;和非线性深神经网络+ vocoder。
该受试者听到了自然的句子,他的听觉皮层区域由于刺激而产生了神经活动。这种神经活动用于重建以前听到的自然句子。示例对象中的响应电极以红色显示。
研究人员比较了低神经频率范围和高神经频率范围的重建精度。结果表明,在数字识别任务中,具有深神经网络模型的Vocoder的方法(DNN+VOCODER)直接估计获得的所有神经频率获得了最高的主观和客观分数,与使用线性回归重建听觉图的基线处理方法相比,该方法的可理解性提高了65。
为了比较重建的音频效果,要求11名具有正常听力技巧的志愿者使用四种型号组合随机聆听重建的音频效果并进行评分。
结果表明,非线性深神经网络+ Vocoder组合(红色,DV)的得分最高,为3.4分。其还原度也是最高的,志愿者的正确恢复率达到了75。此外,在志愿者对受试者的性别判断中,这种组合的性别正确识别率达到了约80。
先前的研究成功地解码了虚构的发音,重复的假想单词,无声的阅读等。人类听觉皮质区域(包括上颞回)。该研究团队来自美国哥伦比亚大学的研究团队认为,重建后的声音质量差是阻碍基于语音的脑部计算机界面系统发展的主要因素。重建人类听觉皮层区域的言语提供了创建语音神经假体的可能性。
言语神经假体的最终目标是找到脑波与言语之间的联系,从而创建一种与大脑直接交流的方法,以便失去说话能力的人可以“重新开放”。
作为回应,圣地亚哥州立大学语言大脑动力学实验室主任斯蒂芬妮·里伊斯(StephanieRis)说,人们在默默地背诵时产生的大脑信号与他们说话时的大脑信号并不相同。没有外部声音的合作,计算机甚至很难区分大脑语言信号的起点。这也意味着人类仍然远离人类使用脑部计算机界面和人工智能技术来使失业者“开放”。