开云体育在 70 个特定案例的对比测试中-kaiyun.com-开云官网登录入口(中国)官方网站

发布日期：2025-06-21 10:16 点击次数：140

　　开端：IT之家开云体育

　　IT之家 12 月 25 日音信，由哈佛医学院和斯坦福大学构成的科研团队，在医学会诊限制长远评估 OpenAI 的 o1-preview 模子，发现其比东说念主类大夫更擅长会诊辣手的医疗案例。

　　把柄计议申诉，o1-preview 正确会诊了 78.3% 的测试案例，在 70 个特定案例的对比测试中，准确率更是高达 88.6%，显赫优于其前身 GPT-4 的 72.9%。

　　使用医学推理质地评估圭臬量表 R-IDEA，o1-preview 在 80 个案例中取得了 78 个满分。比拟之下，训戒丰富的大夫仅在 28 个案例中赢得满分，入院大夫则仅为 16 例。

　　在 25 位各人狡计的复杂案例中，o1-preview 得分高达 86%，是使用 GPT-4 的大夫（41%）和使用传统器具的大夫（34%）的两倍多。

　　计议东说念主员承认该测试存在局限性，部分测试案例可能包含在 o1-preview 的考试数据中，且测试主要聚拢于系统单独使命，并未充分接洽其与东说念主类大夫协同使命的场景；此外 o1-preview 提倡的会诊测试老本不菲，在本色愚弄中存在局限性。

　　IT之家附上参考地址

Superhuman performance of a large language model on the reasoning tasks of a physician

OpenAI‘s o1-preview outperforms doctors in diagnosing tricky medical cases， study finds

　　告白声明：文内含有的对外跳转聚会（包括不限于超聚会、二维码、口令等体式），用于传递更多信息，省俭甄选技艺，服从仅供参考，IT之家系数著作均包含本声明。

海量资讯、精确解读，尽在新浪财经APP

包袱裁剪：陈钰嘉开云体育