网站首页
手机版

谷歌《自然》论文:回答医疗咨询,AI医生可与人类医生表现相当

更新时间:2025-05-18 17:16作者:佚名

·研究人员提出了一个评估基准,以评估临床知识中大语言模型的性能。引入说明及时调整后,由此产生的模型Med-PALM性能令人鼓舞:92.6的长答案与科学共识一致,与临床医生产生的答案相当(92.9); 5.9的答案被评为可能导致有害结果,类似于临床医生产生的结果(5.7)。

谷歌《自然》论文:回答医疗咨询,AI医生可与人类医生表现相当

大型语言模型显示出令人印象深刻的功能,但是临床应用的障碍仍然很高。人们可以相信AI医生吗?如何评估AI咨询的有效性?在回答这些问题之前,医学界迫切需要评估标准以识别。

7月12日,当地时间,Google和DeepMind的研究人员发表了一项在《杂志》 《自然》期刊上发表的研究,提出了一个多媒体质量检查评估基准,以评估大语言模型在临床知识中的性能。研究人员发现,由大语言模型建造的AI医生在许多方面都与人类医生相媲美。

Google研究人员说,这项技术不会威胁全科医生的工作,但将来可能会在医疗求助热线器中使用。

论文写道:“医学是一项人性化的事业,语言为临床医生,研究人员和患者之间的关键互动提供了可能性。但是,当今有关医疗和医疗保健应用的人工智能(AI)模型在很大程度上未能充分利用语言。” “这些模型虽然有用,但主要是单个任务系统(例如,用于分类,回归或分割),缺乏表达和相互作用功能。因此,当今模型的功能与现实生活中临床工作流程的期望之间存在不一致之处。”

多媒体QA结合了六个现有的医疗问答数据集,其中涵盖了专业医学,研究和消费者查询,以及一个包含3173在线搜索医疗问题HealthSearchQA的新数据集。研究人员提出了对模型答案的人类评估框架,包括几个事实,理解,推理,可能的伤害和偏见的指标。

多媒体QA结合了六个现有的医疗问答数据集,涵盖了专业医学,研究和消费者查询,以及一个新的数据集,其中包含3173个在线搜索医疗问题HealthSearchQA,该数据集测试Palm并介绍说明及时调整。

然后,研究人员测试了大语言模型棕榈及其变体Flan-Palm。通过结合及时的策略,弗兰- 帕尔姆(Flan-Palm)在每个多QA多选数据集上达到了高精度,其中包括MEDQA的67.6精度(美国医疗许可考试类型问题),比以前最新的大型语言模型高17。

尽管Flan-Palm在多项选择问题上表现出色,但其对消费者医疗问题的答案揭示了关键的差距。为了解决这个问题,研究人员介绍了指令促使调整,可以使用一些示例将大型Oracle模型与新域保持一致。由此产生的MED-PALM性能令人鼓舞。例如,临床医生团队认为,弗兰- 帕尔姆(Flan-Palm)的长形答案中只有61.9与科学共识一致,而Med-Palm答案的这一比例为92.6,这与临床医生产生的答案相媲美(92.9)。同样,将29.7的弗兰- 帕尔姆答案评为可能导致有害结果,而Med-palm的5.9,类似于临床医生生成的答案的结果(5.7)。

Flan-Palm 540b模型在MEDQA(4个选项),MEDMCQA和PubMedQA数据集上的表现优于先前的顶级级别(SOTA)。先前的一流水平来自Galactica20(MEDMCQA),PubMedGPT19(MEDQA)和BioGPT21(PubMedQA)。精度的百分比显示在每一列上方。

研究人员建议,随着模型规模和教学提示,理解,知识回忆和推理技能的调整,这表明大语言模型在医疗领域具有潜在的有用性。但是,“尽管这些结果是有希望的,但医疗领域很复杂。需要进一步评估,尤其是在安全,公平和偏见方面。”

“我们希望医生信任这个项目。当人们转向互联网以获取医疗信息时,他们会遇到信息超负荷,因此他们可以从10种可能的诊断中选择最坏的情况并承受很多不必要的压力。这种语言模型将提供简短的专家意见,而没有偏见,引用其来源并表达任何不确定性。”

此外,该程序可用于分类,以了解紧急人士的紧迫性并排队以进行治疗。 “当我们缺乏专业的医生时,我们需要提供帮助,这将使他们能够腾出时间去做工作。这确实令人兴奋,而且医生不必担心AI的工作,因为这只会给他们更多时间与患者在一起。”

然而,巴斯大学教授詹姆斯·达文波特(James Davenport)告诉《每日邮报》:“新闻稿描述了本文如何提高我们使用大语言模型来回答医疗问题的知识,这本身就是准确的。但是房间里有一头大象,但在医学上不需要医学问题,而不是解决医疗问题。医院,医生不需要接受多年的学术课程培训。”

为您推荐

哪国是传统网球强国,球王球后最多? 网球哪个国家强

又是崭新的一周!在最新的世界第一的宝座上,又出现了一个新的名字,那便是辛纳,他也是意大利首位世界第一。那么截至目前,哪个国家贡献出的世界第一最多呢?美国:13人(埃弗特、纳芙拉蒂诺娃、奥斯汀、达文波特、卡普里亚蒂、大威廉姆斯、小威廉姆斯、康

2025-05-18 17:16

南国书香节粤版新书推荐(广东南国书香门第文化传媒公司)

2024年南国书香节正在火热进行中,为了迎接这个读书人的节日,广东各家出版社都推出了许多优秀作品。南都的编辑、记者从大量粤版新书中精挑细拣,选出了十本好书,推荐给广大读者。 《南方启航》叶曙明著,花城出版社2024年7月版,68.00元。

2025-05-18 17:16

读创今日荐书 | 摭拾英国文学史中的史料及藏书轶事(英国文学史书籍)

深圳商报·读创客户端首席记者魏沛娜近日,南方日报出版社“西方书话小经典丛书”的第一部、第二部作品《书林僻径》《书林漫步》的中译本出版。十九世纪中叶英国报人、作家威廉·达文波特·亚当斯在书中品味英国书话、随笔,帮助读者深入了解英国文学及藏书文

2025-05-18 17:15

2024年必读的10本科技书籍(科技类书推荐)

过去一年,科技领域发生了变革性的变化,人工智能的进步尤为显著。从新型生成式 AI 应用的普及到 AI 代理的崛起,再到技术治理和未来工作的问题,2024年必读书籍涵盖了我们不断演变的数字环境所带来的机遇和挑战。以下精选作品提供了来自行业先驱

2025-05-18 17:15

全球战疫|世卫专家:更多证据表明奥密克戎引发症状比此前毒株轻

凭借在关键蛋白上的30多个突变氨基酸,新冠病毒变异株“奥密克戎”一经报告,很快被世卫组织定为“值得关切的变异株”(VOC)。世卫专家阿卜迪·马哈茂德表示,有更多证据表明,奥密克戎毒株正在影响上呼吸道,引发症状比此前发现的毒株要轻。伴随奥密克

2025-05-18 17:14

美国新一姐用16年圆梦(美国新星女演员)

澳网新科女单冠军肯宁深情亲吻奖杯。图/Osports达芙妮·阿克赫斯特杯迎来新主人。昨晚结束的澳网公开赛女单决赛中,21岁美国球员肯宁2比1战胜穆古拉扎首次捧起大满贯奖杯。5岁刚开始练习网球时,肯宁便把目标锁定为大满贯冠军。16年后,肯宁梦

2025-05-18 17:14