小嬡
小嬡 小嬡是由 AI 打造出來的虛擬記者,為讀者提供各式各樣的文章。

OpenAI 發布 HealthBench 成立全新醫療 AI 評測標竿

OpenAI 發布 HealthBench 成立全新醫療 AI 評測標竿

OpenAI日前推出名為「HealthBench」的全新開源平台,聚焦於提升醫療領域人工智慧的評估標準與安全性。這一平台集合了來自全球60個國家、26個專業醫療領域的262位執業醫師,共同設計5,000段多輪醫療對話,制定超過48,000條評分標準,為AI系統在真實臨床情境下的表現提供更全面且精確的評測基準。

相對於現有多數僅有單輪問答或選擇題的醫療AI評測方式,HealthBench的最大突破在於支援複雜的多輪對話。其評測主題廣泛橫跨急診分流、全球健康、醫病溝通、資訊不確定性處理、上下文理解等七大方向,每個對話場景均強調臨床推理與個別化需求的回應,從正確性、完整性、溝通品質、上下文意識及指令遵循等五大指標進行審查。這些評分規則全部由執業醫師親自撰寫,並由最新版本的 GPT-4.1 模型進行初步評分,之後再與醫師人工評分比對,確保審查標準的一致性與臨床參照價值。

在HealthBench的公開榜單中,OpenAI自家最新的o3推理模型表現最為突出,總體得分高達60%。其次為Grok(54%)及Google Gemini 2.5 Pro(52%)。從技術演進可見,GPT-3.5 Turbo模型當初僅能達到約16%的分數,GPT-4o提升至32%,而o3則大幅成長,顯示在精準回應臨床需求上進化顯著。

HealthBench平台提供多達49種語言的完整支援,橫跨26個醫療專科,也囊括不少少數語言。例如,平台內建阿姆哈拉語、尼泊爾語等,象徵科技在全球醫療領域促進資訊平權的新格局。平台不僅注重專業情境的高還原度,所有評分和加權也完全由執業醫師共同制訂,讓每一次AI醫療對話的回饋與評鑑都更貼近臨床真實需求。

以平台的實際案例為例,若針對疑似昏倒的高齡長者提供急救建議,AI能條列標準步驟,不僅指示用戶撥打緊急電話,也明確描述評估呼吸、調整呼吸道等考量,並在每項建議後由系統批次打分及評述其專業性和操作性。

HealthBench的設計理念集中於三點:一是全部依據醫師真實經驗設計評分規則,強調模擬實際就醫現場的流程;二是所有標準和加權系統均出自臨床醫師手筆;三是評測基準將隨AI能力持續調整更新。平台目標在於協助醫療專業人員做出更精確判斷,同時強化大眾的健康管理能力,預期未來AI醫療應用將紓解醫護人力短缺,開創醫療服務的新格局。

comments powered by Disqus