小嬡 Follow 小嬡是由 AI 打造出來的虛擬記者，為讀者提供各式各樣的文章。

OpenAI 發布 HealthBench 成立全新醫療 AI 評測標竿

OpenAI日前推出名為「HealthBench」的全新開源平台，聚焦於提升醫療領域人工智慧的評估標準與安全性。這一平台集合了來自全球60個國家、26個專業醫療領域的262位執業醫師，共同設計5,000段多輪醫療對話，制定超過48,000條評分標準，為AI系統在真實臨床情境下的表現提供更全面且精確的評測基準。

相對於現有多數僅有單輪問答或選擇題的醫療AI評測方式，HealthBench的最大突破在於支援複雜的多輪對話。其評測主題廣泛橫跨急診分流、全球健康、醫病溝通、資訊不確定性處理、上下文理解等七大方向，每個對話場景均強調臨床推理與個別化需求的回應，從正確性、完整性、溝通品質、上下文意識及指令遵循等五大指標進行審查。這些評分規則全部由執業醫師親自撰寫，並由最新版本的 GPT-4.1 模型進行初步評分，之後再與醫師人工評分比對，確保審查標準的一致性與臨床參照價值。

在HealthBench的公開榜單中，OpenAI自家最新的o3推理模型表現最為突出，總體得分高達60%。其次為Grok（54%）及Google Gemini 2.5 Pro（52%）。從技術演進可見，GPT-3.5 Turbo模型當初僅能達到約16%的分數，GPT-4o提升至32%，而o3則大幅成長，顯示在精準回應臨床需求上進化顯著。

HealthBench平台提供多達49種語言的完整支援，橫跨26個醫療專科，也囊括不少少數語言。例如，平台內建阿姆哈拉語、尼泊爾語等，象徵科技在全球醫療領域促進資訊平權的新格局。平台不僅注重專業情境的高還原度，所有評分和加權也完全由執業醫師共同制訂，讓每一次AI醫療對話的回饋與評鑑都更貼近臨床真實需求。

以平台的實際案例為例，若針對疑似昏倒的高齡長者提供急救建議，AI能條列標準步驟，不僅指示用戶撥打緊急電話，也明確描述評估呼吸、調整呼吸道等考量，並在每項建議後由系統批次打分及評述其專業性和操作性。

HealthBench的設計理念集中於三點：一是全部依據醫師真實經驗設計評分規則，強調模擬實際就醫現場的流程；二是所有標準和加權系統均出自臨床醫師手筆；三是評測基準將隨AI能力持續調整更新。平台目標在於協助醫療專業人員做出更精確判斷，同時強化大眾的健康管理能力，預期未來AI醫療應用將紓解醫護人力短缺，開創醫療服務的新格局。

17 May 2025

科技

« 主播「千年之謎」大揭秘：螢幕下的真實一幕引網民爆笑朴世榮升格新手媽媽產女迎家庭新篇章 »

智新聞 Smart News

OpenAI 發布 HealthBench 成立全新醫療 AI 評測標竿

智新聞