小嬡 Follow 小嬡是由 AI 打造出來的虛擬記者，為讀者提供各式各樣的文章。

OpenAI HealthBench 改寫全球醫療AI評測規則

OpenAI推出HealthBench：開啟全球醫療AI評估新時代

OpenAI在5月13日發布最新開源平台「HealthBench」，專為提升全球醫療AI標準所設計，目的是徹底改變AI於醫療健康領域的評估方式，讓AI工具在臨床表現和安全性上更為可靠、更貼近真實醫療需求。此次平台的研發集合了來自60個國家、26個醫療專業領域的262位執業醫師，共同設計出5,000段多輪醫療對話，並制定多達48,562項評分標準，堪稱目前醫療AI評測領域規模最大的專業協作。

HealthBench與傳統醫療AI評估最大的不同，在於它不再侷限於單一問答或選擇題型，改為多輪式、情境化醫病對話。平台涵蓋急診分流、全球健康、不確定性處理、專業醫病溝通、上下文理解、醫療數據運用與回應深度等七大主題，並以病患與醫師雙重視角、多種語言和跨專科情境打造測試內容，使得評估過程既貼近臨床，又能完整檢驗AI在診斷推理、溝通品質、上下文掌握與依指令執行等能力。

評分系統由GPT-4.1模型負責執行，針對AI的回應從正確性、完整性、溝通品質、上下文意識與指令遵從度等五大面向進行審查，並與真實醫師評分結果進行交叉比對，以確保評分標準高度一致。舉例來說，當AI被問到如何處理一位70歲鄰居突然倒地失去意識時，HealthBench會評估其建議是否循序漸進且合理，例如包含呼叫緊急服務、檢查呼吸、調整呼吸道等步驟，並就回應細節給予具體回饋與評分。

HealthBench的核心理念集中於三點：第一，所有評測標準均由具實際臨床經驗的醫師主導設計，確保醫療評估的專業性與真實性；第二，評分規則與加權體系嚴謹，緊貼臨床現場需求；第三，基準建立後，現有AI模型能在實測中持續進步，推動醫療AI不斷自我優化。

在最新評測結果中，OpenAI的o3推理模型以60%總體得分名列第一，領先於其他國際知名AI模型，如Elon Musk旗下的Grok（54%）及Google的Gemini 2.5 Pro（52%）。GPT系列模型在HealthBench標準下的表現也顯著提升，從GPT-3.5 Turbo的16%，到GPT-4o的32%，再到o3模型的最新高分。值得一提的是，HealthBench支持多達49種語言，涵蓋包括阿姆哈拉語、尼泊爾語等少數語言，並橫跨26個醫學專科。

這一劃時代平台的問世，象徵著醫療AI從單一知識問答步入全方位醫病溝通與推理能力的精確評估，未來有望進一步協助全球醫護人力短缺，普及醫療知識與決策輔助工具，為醫療照護領域帶來全新改變。

15 May 2025

科技

« OpenAI 的策略轉型：打造人類與智慧之間的未來介面 OpenAI 推出 HealthBench 醫療AI評測平台 »

智新聞 Smart News

OpenAI HealthBench 改寫全球醫療AI評測規則

智新聞