谷歌《自然》论文：回答医疗咨询，AI医生可与人类医生表现相当

更新时间：2025-05-18 17:16作者：佚名

·研究人员提出了一个评估基准，以评估临床知识中大语言模型的性能。引入说明及时调整后，由此产生的模型Med-PALM性能令人鼓舞：92.6的长答案与科学共识一致，与临床医生产生的答案相当（92.9）； 5.9的答案被评为可能导致有害结果，类似于临床医生产生的结果（5.7）。

大型语言模型显示出令人印象深刻的功能，但是临床应用的障碍仍然很高。人们可以相信AI医生吗？如何评估AI咨询的有效性？在回答这些问题之前，医学界迫切需要评估标准以识别。

7月12日，当地时间，Google和DeepMind的研究人员发表了一项在《杂志》《自然》期刊上发表的研究，提出了一个多媒体质量检查评估基准，以评估大语言模型在临床知识中的性能。研究人员发现，由大语言模型建造的AI医生在许多方面都与人类医生相媲美。

Google研究人员说，这项技术不会威胁全科医生的工作，但将来可能会在医疗求助热线器中使用。

论文写道：“医学是一项人性化的事业，语言为临床医生，研究人员和患者之间的关键互动提供了可能性。但是，当今有关医疗和医疗保健应用的人工智能（AI）模型在很大程度上未能充分利用语言。” “这些模型虽然有用，但主要是单个任务系统（例如，用于分类，回归或分割），缺乏表达和相互作用功能。因此，当今模型的功能与现实生活中临床工作流程的期望之间存在不一致之处。”

多媒体QA结合了六个现有的医疗问答数据集，其中涵盖了专业医学，研究和消费者查询，以及一个包含3173在线搜索医疗问题HealthSearchQA的新数据集。研究人员提出了对模型答案的人类评估框架，包括几个事实，理解，推理，可能的伤害和偏见的指标。

多媒体QA结合了六个现有的医疗问答数据集，涵盖了专业医学，研究和消费者查询，以及一个新的数据集，其中包含3173个在线搜索医疗问题HealthSearchQA，该数据集测试Palm并介绍说明及时调整。

然后，研究人员测试了大语言模型棕榈及其变体Flan-Palm。通过结合及时的策略，弗兰- 帕尔姆（Flan-Palm）在每个多QA多选数据集上达到了高精度，其中包括MEDQA的67.6精度（美国医疗许可考试类型问题），比以前最新的大型语言模型高17。

尽管Flan-Palm在多项选择问题上表现出色，但其对消费者医疗问题的答案揭示了关键的差距。为了解决这个问题，研究人员介绍了指令促使调整，可以使用一些示例将大型Oracle模型与新域保持一致。由此产生的MED-PALM性能令人鼓舞。例如，临床医生团队认为，弗兰- 帕尔姆（Flan-Palm）的长形答案中只有61.9与科学共识一致，而Med-Palm答案的这一比例为92.6，这与临床医生产生的答案相媲美（92.9）。同样，将29.7的弗兰- 帕尔姆答案评为可能导致有害结果，而Med-palm的5.9，类似于临床医生生成的答案的结果（5.7）。

Flan-Palm 540b模型在MEDQA（4个选项），MEDMCQA和PubMedQA数据集上的表现优于先前的顶级级别（SOTA）。先前的一流水平来自Galactica20（MEDMCQA），PubMedGPT19（MEDQA）和BioGPT21（PubMedQA）。精度的百分比显示在每一列上方。

研究人员建议，随着模型规模和教学提示，理解，知识回忆和推理技能的调整，这表明大语言模型在医疗领域具有潜在的有用性。但是，“尽管这些结果是有希望的，但医疗领域很复杂。需要进一步评估，尤其是在安全，公平和偏见方面。”

“我们希望医生信任这个项目。当人们转向互联网以获取医疗信息时，他们会遇到信息超负荷，因此他们可以从10种可能的诊断中选择最坏的情况并承受很多不必要的压力。这种语言模型将提供简短的专家意见，而没有偏见，引用其来源并表达任何不确定性。”

此外，该程序可用于分类，以了解紧急人士的紧迫性并排队以进行治疗。 “当我们缺乏专业的医生时，我们需要提供帮助，这将使他们能够腾出时间去做工作。这确实令人兴奋，而且医生不必担心AI的工作，因为这只会给他们更多时间与患者在一起。”

然而，巴斯大学教授詹姆斯·达文波特（James Davenport）告诉《每日邮报》：“新闻稿描述了本文如何提高我们使用大语言模型来回答医疗问题的知识，这本身就是准确的。但是房间里有一头大象，但在医学上不需要医学问题，而不是解决医疗问题。医院，医生不需要接受多年的学术课程培训。”

上一篇：盘点全美最危险的25所学校，盘点全美最危险的25所学校排名

下一篇：哪国是传统网球强国，球王球后最多？网球哪个国家强

美国留学