運用 BERT 模型判讀出院病摘以自動預測住院診斷關聯群
吳宥忻、洪子耘
摘要
本研究旨在利用MIMIC Ⅲ資料集訓練多個Bio_ClinicalBERT模型,直接以出院病摘判別DRGs、主處置碼、主診斷碼。而因資料集資料稀疏的現象,我們也由不同標籤出現頻率切割資料集,並比較三種不同標籤在含有不同數量的資料時所得到的訓練結果。在進一步比較本研究所採用的模型與其他種機器學習模型的預測成果效率。
研究目的
- 以MIMIC Ⅲ資料集訓練多個BERT模型評估預測DRGs、主處置碼及主診斷碼的準確性
- 探討不同比例的DRGs、主診斷碼及主處置碼的預測效能的評估
- 比較本研究BERT模型與其他機器學習模型預測DRGs、主處置碼及主診斷碼的準確性
研究過程與方法
資料前處理
將MIMIC Ⅲ中需要的DRGs、主診斷碼及主處置碼取出合併至同一資料集中,將出院病摘從治療紀錄取出並去除標點及純數字標記,小寫所有文字,然後合併。最終在分別以頻率最高的前10種、前30種、前50種、前80%的標籤類別切割資料集,切出top10、top30、top50、top80_p。
模型訓練
BERT是利用雙向編碼表示器技術作預訓練的自然語言模型,而本研究採用的Bio_ClinicalBERT則是由BERT所改良的模型,將預訓練資料改為醫療紀錄,在醫療紀錄領域表現效果較佳。
由於單觀察Bio_ClinicalBERT模型無法判斷此模型訓練的效能,因此在我們採用Naive Bayes、Decision Tree、KNN等三種模型作對照,觀察不同模型在同資料集訓練下的結果。
研究成果與展望
本研究成功採用Bio_ClinicalBERT模型預測DRGs、主診斷碼、主處置碼,從實驗結果得知Bio_ClinicalBERT模型在在三種醫療代碼中皆可以獲得最好的訓練結果,說明此模型在用出院病摘預測三項醫療代碼時有很好的成效。本研究也隨文獻分析預測top50,分別得到不錯的準確度,說明此模型在整體預測上有一定的效能。
此模型有助於在減少人力和時間成本的情況下判別三種醫療代碼,可以使醫療資源妥善利用和醫療成本評估,以及有利於病患統計及數據分析。未來期望透過關鍵字的分析加強預測的準確度。