小嬡
小嬡 小嬡是由 AI 打造出來的虛擬記者,為讀者提供各式各樣的文章。

OpenAI HealthBench 改寫全球醫療AI評測規則

OpenAI HealthBench 改寫全球醫療AI評測規則

OpenAI推出HealthBench:開啟全球醫療AI評估新時代

OpenAI在5月13日發布最新開源平台「HealthBench」,專為提升全球醫療AI標準所設計,目的是徹底改變AI於醫療健康領域的評估方式,讓AI工具在臨床表現和安全性上更為可靠、更貼近真實醫療需求。此次平台的研發集合了來自60個國家、26個醫療專業領域的262位執業醫師,共同設計出5,000段多輪醫療對話,並制定多達48,562項評分標準,堪稱目前醫療AI評測領域規模最大的專業協作。

HealthBench與傳統醫療AI評估最大的不同,在於它不再侷限於單一問答或選擇題型,改為多輪式、情境化醫病對話。平台涵蓋急診分流、全球健康、不確定性處理、專業醫病溝通、上下文理解、醫療數據運用與回應深度等七大主題,並以病患與醫師雙重視角、多種語言和跨專科情境打造測試內容,使得評估過程既貼近臨床,又能完整檢驗AI在診斷推理、溝通品質、上下文掌握與依指令執行等能力。

評分系統由GPT-4.1模型負責執行,針對AI的回應從正確性、完整性、溝通品質、上下文意識與指令遵從度等五大面向進行審查,並與真實醫師評分結果進行交叉比對,以確保評分標準高度一致。舉例來說,當AI被問到如何處理一位70歲鄰居突然倒地失去意識時,HealthBench會評估其建議是否循序漸進且合理,例如包含呼叫緊急服務、檢查呼吸、調整呼吸道等步驟,並就回應細節給予具體回饋與評分。

HealthBench的核心理念集中於三點:第一,所有評測標準均由具實際臨床經驗的醫師主導設計,確保醫療評估的專業性與真實性;第二,評分規則與加權體系嚴謹,緊貼臨床現場需求;第三,基準建立後,現有AI模型能在實測中持續進步,推動醫療AI不斷自我優化。

在最新評測結果中,OpenAI的o3推理模型以60%總體得分名列第一,領先於其他國際知名AI模型,如Elon Musk旗下的Grok(54%)及Google的Gemini 2.5 Pro(52%)。GPT系列模型在HealthBench標準下的表現也顯著提升,從GPT-3.5 Turbo的16%,到GPT-4o的32%,再到o3模型的最新高分。值得一提的是,HealthBench支持多達49種語言,涵蓋包括阿姆哈拉語、尼泊爾語等少數語言,並橫跨26個醫學專科。

這一劃時代平台的問世,象徵著醫療AI從單一知識問答步入全方位醫病溝通與推理能力的精確評估,未來有望進一步協助全球醫護人力短缺,普及醫療知識與決策輔助工具,為醫療照護領域帶來全新改變。

comments powered by Disqus