AI医学推理能力超越人类医生？哈佛、斯坦福：o1-preview 模型诊断准确率高达80%

人工智能在医疗领域的应用再次迎来重大突破!一项由哈佛大学、斯坦福大学等多所顶尖机构联合开展的研究显示，OpenAI 的 o1-preview 模型在多项医学推理任务中表现出惊人的能力，甚至超越了人类医生。这项研究不仅评估了该模型在医学多项选择题基准测试中的表现，更着重考察了其在模拟真实临床场景下的诊断和管理能力，结果令人瞩目。

研究人员通过五个实验，对 o1-preview 模型进行了全面评估，包括鉴别诊断生成、展示诊断推理过程、分诊鉴别诊断、概率推理和管理推理。这些实验均由医学专家使用已验证的心理测量学方法进行评估，旨在将 o1-preview 的表现与此前人类对照组和早期大型语言模型基准进行对比。结果显示，o1-preview 在鉴别诊断生成以及诊断和管理推理的质量方面取得了显著进步。

在评估 o1-preview 生成鉴别诊断的能力时，研究人员使用了《新英格兰医学杂志》（NEJM）发布的临床病理讨论会(CPC)病例。结果显示，该模型在78.3% 的病例中给出的鉴别诊断包含了正确诊断，在52% 的病例中，首个诊断即为正确诊断。更为惊人的是，o1-preview 在88.6% 的病例中给出了准确或非常接近的诊断，而之前的 GPT-4模型在相同病例中的这一比例为72.9%。此外，o1-preview 在选择下一步诊断测试方面也表现出色，在87.5% 的病例中选择了正确的测试，11% 的病例中选择的测试方案被认为是有帮助的。

付费查看全文(收费一元)

AI医学推理能力超越人类医生？哈佛、斯坦福：o1-preview 模型诊断准确率高达80%

公司名称： 玩转地球商旅学苑（北京） 文化发展有限公司

公司名称：玩转地球商旅学苑（北京）文化发展有限公司