AI医学推理能力超越人类医生?哈佛、斯坦福:o1-preview 模型诊断准确率高达80%

人工智能在医疗领域的应用再次迎来重大突破!一项由哈佛大学、斯坦福大学等多所顶尖机构联合开展的研究显示,OpenAI 的 o1-preview 模型在多项医学推理任务中表现出惊人的能力,甚至超越了人类医生。这项研究不仅评估了该模型在医学多项选择题基准测试中的表现,更着重考察了其在模拟真实临床场景下的诊断和管理能力,结果令人瞩目。

研究人员通过五个实验,对 o1-preview 模型进行了全面评估,包括鉴别诊断生成、展示诊断推理过程、分诊鉴别诊断、概率推理和管理推理。这些实验均由医学专家使用已验证的心理测量学方法进行评估,旨在将 o1-preview 的表现与此前人类对照组和早期大型语言模型基准进行对比。结果显示,o1-preview 在鉴别诊断生成以及诊断和管理推理的质量方面取得了显著进步。

在评估 o1-preview 生成鉴别诊断的能力时,研究人员使用了《新英格兰医学杂志》(NEJM)发布的临床病理讨论会(CPC)病例。结果显示,该模型在78.3% 的病例中给出的鉴别诊断包含了正确诊断,在52% 的病例中,首个诊断即为正确诊断。更为惊人的是,o1-preview 在88.6% 的病例中给出了准确或非常接近的诊断,而之前的 GPT-4模型在相同病例中的这一比例为72.9%。此外,o1-preview 在选择下一步诊断测试方面也表现出色,在87.5% 的病例中选择了正确的测试,11% 的病例中选择的测试方案被认为是有帮助的。

付费查看全文(收费一元)