“这台AI看X光片的水平,居然比主治医师还厉害!”近日,埃默里大学医学院的一项研究引爆医学圈——最新人工智能模型GPT-5在医学影像推理和理解能力上,分别以24.23%和29.40%的优势超越人类专家,引发”AI是否会取代医生”的激烈讨论。

一、颠覆性测试:GPT-5多模态能力全面领先
研究团队将GPT-5与GPT-4o及其轻量化版本(GPT-5-mini、GPT-5-nano)进行系统对比,通过USMLE医师执照考试、MedXpertQA综合基准测试和放射科VQA-RAD视觉问答测试三大”关卡”,全面评估AI的医学能力。
在USMLE考试中,GPT-5全面超越GPT-4o,平均得分领先其他模型。而真正的”高光时刻”出现在MedXpertQA多模态测试中——这个包含4460道题目、覆盖17个医学专科的权威测试,其MM子集引入了带有多样化图像及丰富临床信息(病历、检查结果等)的专家级考试题,难度远超常规。结果显示,GPT-5的推理得分比GPT-4o提高近30%,理解得分提升36%,在文本测试中大幅领先人类专家,在多模态测试中推理超人类专家24%、理解超29%。
放射科VQA-RAD测试同样惊艳:GPT-5匹配率达70.92%,高于GPT-4o及其轻量化版本。虽然轻量化变体GPT-5-mini严格匹配率略优(74.90%),但研究人员认为这可能源于小模型的数据集过拟合现象。综合来看,GPT-5在解读复杂医学图像并生成准确文本描述的能力上,展现出强大优势。
二、技术突破:端到端多模态架构的代际跨越
GPT-5为何能实现如此飞跃?研究团队揭示,其核心在于构建了端到端的多模态架构,实现了从”文本主导”到”原生多模态融合”的代际跨越。
与GPT-4o依赖”文本转译+外部工具调用”的间接模式不同,GPT-5通过共享标记化技术,将文本、影像、音频等信息编码为统一向量空间的符号,再借助跨模态注意力机制实现感知-推理-决策的无缝衔接。这种架构革新使得AI能直接建立影像特征-病理机制-治疗方案的因果关联,避免了图像信息在转译过程中的损耗和推理链条的断裂。
尤其在MedXpertQA Text、USMLE Step 2等推理密集型任务中,GPT-5的思维链提示与增强的内部推理能力形成协同效应,使其能更准确地完成多步推理。研究人员形象比喻:”这就像从’翻译官转述’升级为’直接对话’,AI终于听懂了医学影像的’无声语言’。”
三、现实挑战:理想测试与真实诊室的鸿沟
尽管GPT-5在标准化测试中表现惊艳,但现实中的医疗场景远比实验室复杂。KCDH_A数字健康研究中心的”终极考试”给AI泼了一盆冷水——这项模拟日常实践的跨模态检测任务,涵盖CT、MRI和X光等复杂真实病例,所有AI模型得分均低于实习医生,拥有执业资格的放射科医生更是领先AI更多。
“虽然我对AI发展感到兴奋,但AI取代放射科医生与现实的差距仍然很大。”该实验室研究人员直言。研究团队也承认,当前测试均在理想环境下进行,题目和数据标准化,而现实中患者情况千奇百怪,可能遇到各种突发状况,AI的”实战能力”仍需更多考验。
新闻总结:
埃默里大学医学院最新研究显示,GPT-5在医学影像推理和理解能力上分别以24.23%和29.40%的优势超越人类专家,在USMLE考试、MedXpertQA多模态测试和VQA-RAD视觉问答测试中全面领先。其成功源于端到端多模态架构的代际跨越,通过共享标记化技术和跨模态注意力机制,实现影像信息直接推理,避免了传统模式的损耗与断裂。然而,尽管GPT-5在标准化测试中表现惊艳,但在KCDH_A数字健康研究中心模拟真实病例的”终极考试”中,所有AI模型得分均低于实习医生,人类医生的实战优势依然显著。这表明,AI在医学领域的应用仍面临从理想测试到真实诊室的巨大挑战,”取代医生”言之尚早。