更新时间:2025-05-18 17:21作者:佚名
您是否在网上搜索过“我在我的痛苦中有任何痛苦,我有任何疾病吗?”答案可能并不令人满意。但是,借助大型自然语言模型(LLM),例如Chatgpt,人们已经开始尝试回答医学问题或医学知识。
但是,它可靠吗?
总体而言,人工智能(AI)给出的答案是准确的。但是英国巴斯大学的教授詹姆斯·达文波特(James Davenport)指出,医疗问题与实际实践之间的区别。他认为“医学实践不仅是要回答医学问题。如果纯粹是关于回答医学问题,我们不需要教医院,并且医生不需要在学术课程后接受多年的培训。”

鉴于各种疑问,在最近发表在《 《自然》杂志上的一篇论文中,全球顶级的AI专家展示了一个基准,用于评估大型自然语言模型如何解决人们的医疗问题。
现有模型还不是完美的
最新评估来自Google研究和深入思考。专家认为,AI模型在医学领域具有许多潜力,包括知识检索和支持临床决策。但是现有模型尚不完美,例如有可能制造令人信服的医学错误信息或纳入偏见以加剧健康不平等。因此,有必要评估其临床知识。
以前没有找到相关评估。但是,过去,基准有限的自动评估,例如个体的医疗测试分数。这转化为现实世界,既缺乏可靠性和价值。
而且,当人们转向互联网获取医疗信息时,他们会遇到“信息超负荷”,然后选择10种可能的诊断中最糟糕的情况,从而承受很多不必要的压力。
研究小组希望该语言模型可以在没有偏见的情况下提供简短的专家意见,表明其引用的来源,并表达不确定性。
LLM如何使用5400亿个参数执行?
为了评估LLM编码临床知识的能力,Google Research的专家Shekufi Aziz和同事探索了他们回答医疗问题的能力。该团队提出了一个名为“ MultiMedQA”的基准:它结合了6个现有的问题,涵盖了涵盖专业医疗,研究和消费者查询的数据集,以及“ HealthSearchQa” ——,这是一个新的数据集,这是一个包含3173个医疗问题的新数据集。
然后,团队评估了Palm(具有5400亿参数的LLM)及其变体Flan-Palm。他们发现,在某些数据集中,Flan-Palm达到了最先进的水平。在整合美国医师许可检查问题的MEDQA数据集中,Flan-Palm超过了先前的最新LLM 17。
但是,尽管Flan-Palm的多选择分数非常出色,但进一步的评估表明,它在回答消费者的医疗问题方面存在差距。
专门从事医学的LLM令人鼓舞
为了解决这个问题,AI专家使用称为设计指令微调的方法进一步调试了对医学领域的flan-palm。同时,研究人员介绍了专门从事医学领域的LLM——Med-PALM。
设计说明的微调是使LLM一般专业领域的一般LLM的有效方法。最终的模型Med-Palm在试验评估中令人鼓舞。例如,一群长期医生回答了弗兰·帕尔姆(Flan-Palm),其科学共识仅为61.9,而Med-palm的答案得分为92.6,这相当于医生给出的反应(92.9)。同样,弗兰- 帕尔姆答案中有29.7被评为可能导致有害结果,而Med-Palm仅为5.8,这相当于医生给出的反应(6.5)。
研究小组提到,尽管结果是有希望的,但需要进一步评估,尤其是在安全性,公平性和偏见方面。
换句话说,在LLM的临床应用是可行的,需要克服许多局限性。
资料来源:科学技术日报