更新时间:2025-05-14 09:22作者:佚名
近年来,AI模型发展迅速,在代码生成,国际象棋游戏等领域超过了人类。但是,约翰·霍普金斯大学大学的最新研究表明,即使投资了巨大的计算能力和100亿元人民币,现有的AI系统仍然无法理解现实世界中的人类社会互动—— ——,核心的能力仍然是“可听的言语”,即使言语不足”,这是一个不足的言语。
研究小组要求志愿者观看三秒钟的简短视频剪辑,以评估角色的相互作用特征。同时,需要350多个AI模型(涵盖图像,视频和语言模型)来预测人类评分。结果表明,人类评级高度一致,并且各种AI模型的准确性已经完全被击败。即使是表现最佳的语言模型,预设文本描述几乎没有支持。结果将很快在ICLR国际研究代表会议上发布。

实验设计:三秒钟的视频揭示了AI社会盲点。研究在计算机视觉数据库中选择两人交互式视频,并将其编辑为三秒钟的剪辑。志愿者需要评估1-5点的互动特征,问题范围从客观判断(“角色是面对面的角色”)到主观感觉(“情感上正面或负面”)。人类评分是高度收敛的,这表明社会观察有一般的认知基准。
AI模型组分为三类:图像模型分析视频帧,视频模型过程动态图像和语言模型分析手动标记的文本描述。结果令人震惊:没有一个模型可以再现人类的共识,尽管语言模型稍好一些,但其优势完全依赖于预设的详细文本描述。
体现的AI革命遇到了认知瓶颈。这一发现是技术巨头加速他们对“体现AI”的进步的时候。 Waymo自动驾驶出租车已与洛杉矶和凤凰城等城市的人类车辆混合在一起,但是由于环境理解缺陷,经常看到诸如圈子驾驶等异常行为; AI的工厂人形机器人与宝马和波士顿Power的现实机器人合作,迫切需要准确理解人类的社会信号,以避免安全事故。
该论文的合着者凯西·加西亚(Kathy Garcia)博士说:“当前的AI可以识别图像中的对象和面孔,但无法理解现场的故事情节。”研究负责人莱拉·伊西克(Leyla Isik)教授强调,要实现诸如老年护理机器人之类的愿景,有必要打破对动态社会状况理解的技术障碍。