更新时间:2025-05-17 00:47作者:佚名
今年2月,加拿大蒙特利尔大学的生态学家蒂莫西·勃佐(Timothy Boiso)正在审查其论文的评论意见,并意外地发现其中一份审查报告可能是AI撰写的。他对此很生气,并在他的博客中谴责:我提交了论文参加评论,而我期待的是我同龄人的想法的碰撞。如果此前提不再存在,那么同行评审系统将成为数字毁灭。
英国杂志网站《自然》在3月27日的报告中指出,AI系统正在以惊人的速度穿透同行评审系统。许多发布者已经测试了各种AI审核系统,以标记文本谬误,手稿中的数据漏洞和波兰文本。有些平台甚至可以单击一键生成完整的AI评论报告。一些粉丝认为,同行评审自动化是不可避免的,而另一些粉丝则担心AI最终可能会在将来主导同行评审过程,从而削弱甚至完全取代人类审稿人的角色。
人工智能渗透到评估生态系统中

在基于大语言模型(LLM)(例如Chatgpt)的生成AI工具浪潮之前,学术出版社区已将AI技术引入了辅助工作的同行评审过程中,例如数据验证和研究结论。但是,随着具有类似人类写作技巧的生成AI工具的出现,这场技术革命也引起了学术界的风暴。
对美国威利出版集团(Willy Publishing Group)对近5,000名研究人员的调查显示,大约有19的受访者承认他们尝试使用AI工具来提高审查效率。更有趣的是,从2023年到2024年对AI现场会议论文的评论报告的分析发现,综述报告中有7-17的审查报告表明,AI工具的“深层抛光”迹象,这意味着修改范围远远超过了基本语法校正的范围。
目前,许多资金机构和出版商明确禁止审稿人在论文或资金审查中使用AI工具,主要担心敏感信息通过聊天机器人泄漏。但是,美国哥本哈根大学的科学家塞巴斯蒂安·波斯塔姆·曼恩(Sebastian Postam Mann)认为,如果使用了本地部署的离线AI工具,则可以在不上传到云中处理数据,从而*降低了泄漏的风险。葡萄牙里斯本天主教大学组织行为的研究人员德利管·格鲁达(Delhijon Gruda)补充说,离线LLMS就像智能文本助手一样,只要AI工具就是帮助者而不是代表他们编写完整文本,这可以加快和优化评论意见的写作过程。
尽管使用生成的AI工具越来越受欢迎,但众所周知的期刊仍然谨慎和观察。 2024年底,关于78个顶级医学期刊的AI审查指南的一项调查显示,有59的期刊完全禁止在审查过程中使用AI技术。允许其余期刊使用,但提出了不同的要求。三个主要的出版小组对AI审查也有截然不同的态度。 Elsevier Group目前禁止审阅者使用生成AI工具来协助审查;威利(Willie)和施普林格(Springer Nature Group)允许“有限使用”,但必须严格披露并上传到在线平台上的详细信息。
聪明的助手在线
鉴于主流学术期刊对独立的AI审查持谨慎态度,科学研究团队开发了有助于人类审查的生成AI工具。
例如,斯坦福大学计算机的团队创建的“反馈代理”审查系统詹姆斯周(James Zhou)就像文本雕刻的大师一样。它可以自动确定审查报告中的语义歧义和其他问题,并向审阅者提供相关建议。
WBS,荷兰阿姆斯特丹开发的Eliza工具展示了跨语言处理智能:它不仅可以推荐对人类评论的参考,而且还可以将其他语言的评论内容实时转换为英语。创始人Zej Carlson说,这就像配备了多语言秘书的装备审稿人,但最终的决策权仍然掌握在人类的手中。据报道,该技术已帮助《欧洲物理评论》杂志处理了23的非英语评论内容。
Yinglunge Publishing Group和Charlesworth的公司开发的“审议助手”可以迅速识别违反匿名规则的论文。但是,该工具还可能产生偏见的评论,例如错误地认为英语作为母语人士的论文更具创新性。
英国初创公司(British Startup)建立的AI建立的真实系统是一种“反相互犯的工具”,可以验证引用文档的真实性以及文档和文章的观点是否一致。此外,它可以标记高重复率段落,以防止窃的风险。该公司的联合创始人尼克·莫利(Nick Morley)描述了专门研究文学的不懈学术侦探。
炼金术士的评论可以快速完善论文的核心发现,评估研究方法的创新并验证数据的可重复性。美国物理联合会出版社目前正在其两个期刊中试用该软件。据报道,该系统已拦截了7项涉嫌数据欺诈的提交。
由澳大利亚认知神经科学家Shane Ilhard等人开发的论文向导可以生成多页的评论报告,并系统地回顾该论文的方法,该方法是开发“在审查前阶段的智能助手”的地位。
一些出版商,包括威利出版集团,也正在尝试开发内部AI工具来帮助同行评审。
学术关键是必不可少的
关于AI评论,最大的担忧是它将在将来取代人类审稿人。
加拿大非营利性学术服务公司Ouresearch的联合创始人Jason Prem是AI评论的忠实拥护者。他说,将来可能会审查所有论文。
学术传播顾问克里斯·伦纳德(Chris Leonard)还预测,尽管当前的AI系统无法完成人类审稿人的所有工作,例如准确地判断本文的独创性。但是,随着技术的不断改进,AI生成的评论报告的质量将比大多数人类评论要好得多。至关重要的是,AI非常有效。
但是,他还强调,正如自主驾驶需要人类监督一样,AI评论必须配备“思考制动系统”。如有必要,请发起次要审查。
一些科学家(包括Boiso)认为,AI没有审查所需的批判性思维,而拟议的大多数内容都是“一般谈话”。华盛顿大学进化生物学家卡尔·伯格斯特罗姆(Carl Bergstrom)也表示,LLM远非足以撰写合格的同行评审报告。写作是在思考。如果审阅者将审核工作外包给AI,则将导致评论内容是肤浅的。
Persdam Mann声称,尽管AI确实提高了一些审稿人的报告。但是LLMS基于培训数据和输入内容生成统计上概率合理的文本,其输出几乎总是包含错误。
英国牛津大学学术伦理研究中心主任艾玛·威尔逊(Emma Wilson)警告说,当算法开始判断人类的智慧时,人们所失去的不仅是审稿人的专业判断,而且是对学术界最宝贵的批判性思维。
如果科学界开始接受AI审查制度,则需要制定强大的透明度标准,并且AI审查的每个细节,所使用的每个提示词等都必须公开。 (《科学与技术日报》记者小夏)
资料来源:科学技术日报