2022年底,OpenAI推出的基于大語(yǔ)言模型(Large language model,LLM)的聊天機(jī)器人ChatGPT展示了令人印象深刻的強(qiáng)大能力。
為應(yīng)對(duì)異軍突起的OpenAI,谷歌在今日推出了其生成式人工智能模型——Gemini,谷歌表示,這是迄今為止功能最強(qiáng)大、最通用的人工智能大模型,其在許多測(cè)試中擊敗了OpenAI最近的GPT-4。
除了與OpenAI的直接競(jìng)爭(zhēng)外,谷歌還致力于開發(fā)其他更專業(yè)的生成式人工智能項(xiàng)目,其中就包括醫(yī)療人工智能大模型——MedLM。谷歌表示,該模型已經(jīng)可以通過(guò)公司的Vertex AI平臺(tái)向美國(guó)谷歌云客戶提供,該平臺(tái)使用機(jī)器學(xué)習(xí)工作流來(lái)指導(dǎo)用戶通過(guò)訓(xùn)練、評(píng)估和部署生成式人工智能模型的過(guò)程。與此同時(shí),美國(guó)以外的某些市場(chǎng)可以“預(yù)覽”這些工具。
MedLM模型基于Med-PaLM 2,Med-PaLM 2是谷歌進(jìn)軍醫(yī)療人工智能大模型的第二次嘗試。去年,其開發(fā)的Med-PaLM模型因通過(guò)了美國(guó)醫(yī)療執(zhí)照考試(USMLE)而成為頭條新聞(準(zhǔn)確率為67%),而今年,Med-PaLM 2進(jìn)一步將準(zhǔn)確率大幅提升至86.5%,根據(jù)谷歌的說(shuō)法,該分?jǐn)?shù)相當(dāng)于“專家”醫(yī)生水平。
谷歌表示,MedLM模型有兩個(gè)版本,其用途之間的差異在于,第一個(gè)MedLM模型更大,專為復(fù)雜任務(wù)設(shè)計(jì)。第二個(gè)是中等模型,能夠進(jìn)行微調(diào),最適合跨任務(wù)擴(kuò)展。谷歌表示,在未來(lái)幾個(gè)月會(huì)將基于Gemini的模型集成到MedLM模型中,以進(jìn)一步擴(kuò)展其人工智能功能。
谷歌表示,此次新推出的醫(yī)療人工智能大模型——MedLM,旨在用于整個(gè)醫(yī)療保健行業(yè)的各個(gè)方面,包括醫(yī)院、藥物開發(fā)、面向患者的聊天機(jī)器人等。例如,美國(guó)醫(yī)療保健巨頭HCA Healthcare正在將MedLM模型用于記錄臨床醫(yī)生與患者之間的對(duì)話,并將其自動(dòng)轉(zhuǎn)譯為醫(yī)療記錄,從而提高記錄的質(zhì)量。AI藥物發(fā)現(xiàn)平臺(tái)BenchSci正在使用MedLM模型快速篩選大量臨床數(shù)據(jù)并識(shí)別某些疾病和生物標(biāo)志物之間的聯(lián)系。

醫(yī)學(xué)是一項(xiàng)人性化的事業(yè),其中語(yǔ)言是臨床醫(yī)生、研究人員和患者之間的溝通互動(dòng)的關(guān)鍵。近年來(lái),人工智能的進(jìn)步為其在醫(yī)學(xué)領(lǐng)域的應(yīng)用帶來(lái)了新的希望。但AI模型主要是單任務(wù)系統(tǒng),缺乏表達(dá)能力和交互能力,還可能會(huì)編造令人信服的醫(yī)療錯(cuò)誤信息,或納入偏見加劇健康不平等。因此,現(xiàn)有的AI模型所能做的和在現(xiàn)實(shí)世界的臨床工作流程中對(duì)它們的期望之間存在著不一致,使其難以轉(zhuǎn)化為真實(shí)世界的可靠性或價(jià)值。
2023年7月,谷歌和谷歌旗下人工智能公司DeepMind的研究人員在國(guó)際頂尖學(xué)術(shù)期刊 Nature 上發(fā)表了題為:Large language models encode clinical knowledge 的研究論文。
該論文展示了谷歌開發(fā)的一個(gè)專精醫(yī)學(xué)領(lǐng)域的大語(yǔ)言模型——Med-PaLM,其能夠很好的回答醫(yī)學(xué)問(wèn)題。

為評(píng)估大語(yǔ)言模型(LLM)編碼臨床醫(yī)學(xué)知識(shí)的能力,研究團(tuán)隊(duì)探討了它們回答醫(yī)學(xué)問(wèn)題的能力。這項(xiàng)任務(wù)非常具有挑戰(zhàn)性,因?yàn)闉獒t(yī)學(xué)問(wèn)題提供高質(zhì)量的答案需要理解醫(yī)學(xué)背景,回憶適當(dāng)?shù)尼t(yī)學(xué)知識(shí),并根據(jù)專家信息進(jìn)行推理。
在這項(xiàng)研究中,提出了一個(gè)基準(zhǔn),稱為MultiMedQA:它結(jié)合了6個(gè)涵蓋專業(yè)醫(yī)療、研究和消費(fèi)者查詢的現(xiàn)有問(wèn)題回答數(shù)據(jù)集以及HealthSearchQA——這是一個(gè)新的數(shù)據(jù)集,包含3173個(gè)在線搜索的醫(yī)學(xué)問(wèn)題。通過(guò)這一基準(zhǔn)來(lái)評(píng)估大語(yǔ)言模型回答醫(yī)學(xué)問(wèn)題的真實(shí)性、在推理中使用專業(yè)知識(shí)、有用性、準(zhǔn)確性、健康公平性和潛在危害。

表現(xiàn)令人鼓舞
研究團(tuán)隊(duì)隨后評(píng)估了PaLM(5400億參數(shù)的大語(yǔ)言模型)及其變體Flan-PaLM。他們發(fā)現(xiàn),在一些數(shù)據(jù)集中Flan-PaLM達(dá)到了最先進(jìn)水平的表現(xiàn)。在整合美國(guó)醫(yī)師執(zhí)照考試類問(wèn)題的MedQA數(shù)據(jù)集中,F(xiàn)lan-PaLM超過(guò)此前最先進(jìn)的大語(yǔ)言模型達(dá)17%,達(dá)到了67.6%的準(zhǔn)確率,達(dá)到了通過(guò)考試的標(biāo)準(zhǔn)(60%)。不過(guò),雖然FLAN-PaLM的多選題成績(jī)優(yōu)良,進(jìn)一步評(píng)估顯示,它在回答消費(fèi)者的醫(yī)療問(wèn)題方面存在差距。

為解決這一問(wèn)題,研究團(tuán)隊(duì)使用一種稱為設(shè)計(jì)指令微調(diào)(instruction prompt tuning)的方式進(jìn)一步調(diào)試Flan-PaLM適應(yīng)醫(yī)學(xué)領(lǐng)域。設(shè)計(jì)指令微調(diào)是讓通用大語(yǔ)音模型適用新的專業(yè)領(lǐng)域的一種有效方法。
結(jié)果產(chǎn)生的新模型Med-PaLM在試行評(píng)估中表現(xiàn)令人鼓舞。例如,F(xiàn)lan-PaLM被一組醫(yī)師評(píng)分與科學(xué)共識(shí)一致程度僅61.9%的長(zhǎng)回答,Med-PaLM的回答評(píng)分為92.6%,相當(dāng)于醫(yī)師做出的回答(92.9%)。同樣地,F(xiàn)lan-PaLM有29.7%的回答被評(píng)為可能導(dǎo)致有害結(jié)果,Med-PaLM僅5.9%,相當(dāng)于醫(yī)師所作回答(6.5%)。

升級(jí)版——Med-PaLM 2
值得一提的是,這篇在 Nature 論文中描述的 Med-PaLM 模型于2022年12月推出,而在今年5月份,谷歌在預(yù)印本平臺(tái)發(fā)表論文,推出了升級(jí)版的Med-PaLM 2。

論文中顯示,Med-PaLM 2是第一個(gè)在美國(guó)醫(yī)療執(zhí)照考試(USMLE)類問(wèn)題上達(dá)到專家級(jí)表現(xiàn)的大語(yǔ)言模型,能夠正確回答多項(xiàng)選擇題和開放式問(wèn)題,并對(duì)答案進(jìn)行推理,準(zhǔn)確率高達(dá)86.5%,大幅超越了Med-PaLM以及GPT3.5。
Med-PaLM 2根據(jù)14項(xiàng)標(biāo)準(zhǔn)進(jìn)行了測(cè)試,包括科學(xué)事實(shí)、準(zhǔn)確性、醫(yī)學(xué)共識(shí)、推理、偏見和危害,由來(lái)自不同背景和國(guó)家的臨床醫(yī)生和非臨床醫(yī)生進(jìn)行評(píng)估。研究團(tuán)隊(duì)還發(fā)現(xiàn)該模型在回答醫(yī)學(xué)問(wèn)題方面仍存在一些差距,但并未具體說(shuō)明,谷歌表示,進(jìn)一步開發(fā)和改進(jìn)該模型以解決這些差距,并了解大語(yǔ)言模型如何改善醫(yī)療保健。

據(jù)報(bào)道,Med-PaLM 2目前正在世界頂尖的醫(yī)療機(jī)構(gòu)梅奧醫(yī)學(xué)中心進(jìn)行初步試驗(yàn)。谷歌認(rèn)為,這種模式在“看病機(jī)會(huì)有限”的國(guó)家尤其有用。他們還表示,在Med-PaLM 2試驗(yàn)期間提交的用戶數(shù)據(jù)將被加密,谷歌無(wú)法訪問(wèn),并由用戶自己控制。
總的來(lái)說(shuō),Med-PaLM是一個(gè)強(qiáng)大的專精醫(yī)學(xué)領(lǐng)域的大語(yǔ)言模型,而設(shè)計(jì)指令微調(diào)是一種有效的數(shù)據(jù)和參數(shù)校準(zhǔn)技術(shù),能夠提高大語(yǔ)言模型的準(zhǔn)確性、真實(shí)性、一致性、安全性,減少危害和偏差等因素,有助于縮小模型與臨床專家的差距,使這些模型更接近現(xiàn)實(shí)世界的臨床應(yīng)用。
參考資料:
https://www.nature.com/articles/s41586-023-06291-2
https://arxiv.org/pdf/2305.09617.pdf
https://the-decoder.com/google-is-testing-its-generative-medical-language-model-in-a-clinical-setting/
https://www.fiercebiotech.com/medtech/google-launches-medlm-generative-ai-models-healthcare-industry