臺大醫院跨領域研究團隊建構AI模型提升法醫學辨識率達97% 可望應用於癌症研究

您是否曾在電視劇中看過這樣的劇情?在刑案現場或是性侵案件中,全副武裝的蒐證人員拿著各種工具蒐集生物檢體,隨後畫面便轉到實驗室場景,電腦程式跑一跑後,壞人便直接現形。但是,現實生活中的刑事鑑定有這麼容易嗎?

人類存在於細胞核內的DNA序列總共約有三十億個鹼基對,其中含有兩萬五千個基因左右。由於人跟人之間部分DNA序列以及片段長度重複性不同,除了同卵雙胞胎外,世界上沒有兩人的DNA序列是一樣的。鑑識人員在犯罪現場所採集到的生物樣本必須先進行基因定序,瞭解基因上的差異,並透過基因資料庫的比對,才能進一步找出潛在的兇手。然而在現實中,利用基因定序找到潛在兇手的做法仍存在著許多困難。譬如,在犯罪現場中所採集到的樣本,絕大部分都是來自被害人的檢體,其中可能混有微量的加害者檢體,但是檢體來源比例上的極度不均衡非常容易造成基因定序上的誤差,因而無法準確找出兇手,甚至可能導致誤判。

為解決極微量混合檢體在基因定序上所遇到的困難,並提高基因定序在法醫鑑定上的個體辨識的準確性,臺大醫院華筱玲醫師與臺大生醫電子與資訊學研究所莊曜宇教授團隊進行跨領域合作,開發了一套新的人工智慧(AI)模型,首創以深度學習及次世代定序(NGS)資料做為基礎的法醫檢體檢測流程,針對檢體中的DNA個體進行辨識的分析方法,此AI模型能夠分辨出檢體混合物中的主要以及次要來源,進一步辨識出混合檢體中的個體身份。

研究團隊為證明此AI模型的可行性,特別模擬刑事案件實際會遇到的情境,將DNA依照不同比例進行混合辨識。例如,將加害者與被害者的DNA以1:39的比例混和,在不同的實驗組別中都獲得準確的預測結果。更嘗試混和來自3個不同個體的DNA定序資料,並將定序數量以不同比例,如9:9:1或是9:1:1混合後,AI仍可正確地判斷出不同個體,且個體辨識準確率高達97%。

此外,為驗證此AI模型的泛用性,研究團隊更進一步使用來自乳癌患者的全外顯子組定序(whole-exome sequencing, WES)數據,成功將乳房切除術後患者分為三陰性(triple negative breast cancer, TNBC)亞型或管腔A(luminal A) 亞型。

目前此研究成果已刊登於高影響係數的國際知名期刊Briefings in Bioinformatics,後續研究也正在進行中,希望透過這個AI模型的應用,抓住現實世界裡面的壞人,同時也把身體裡面「癌細胞」這個壞東西抓出來。

原文連結:
https://academic.oup.com/bib/article/22/6/bbab283/6345217