AI新工具探索“被忽視的DNA區(qū)域”

5小時前發(fā)布在 7X24h 資訊

美國索爾克研究所開發(fā)出一種名為ShortStop的機器學習框架，用于探索以往“被忽視的DNA區(qū)域”，尋找在疾病中發(fā)揮關鍵作用的微蛋白。相關研究發(fā)表在最新一期《BMC方法學》上。

AI新工具探索“被忽視的DNA區(qū)域”-肽度TIMEDOO

研究人員與運行中的ShortStop。圖片來源：美國索爾克研究所

這些微蛋白是蛋白質家族中的小型成員，其組成氨基酸通常少于150個，因此難以通過傳統(tǒng)蛋白質分析方法檢測。長期以來，它們隱藏在基因組中被視為“非編碼”或“垃圾DNA”的99%區(qū)域中，從未被充分研究。然而，越來越多證據(jù)表明，這些區(qū)域并非無用，其所編碼的微蛋白在調節(jié)健康與疾病過程中扮演重要角色。

傳統(tǒng)研究方法主要關注編碼大型蛋白質的DNA區(qū)域，而忽略了可能包含微蛋白編碼指令的小開放閱讀框（smORF）。盡管已有實驗方法識別出了數(shù)千個smORF，但這些方法成本高、耗時長，且無法有效區(qū)分具有生物學功能的微蛋白與無功能的序列，嚴重限制了相關研究的進展。

ShortStop的出現(xiàn)改變了這一局面。該AI工具通過機器學習訓練，不僅能夠從大型基因數(shù)據(jù)庫中識別出潛在的smORF，還能預測哪些微蛋白最有可能具備生物學相關性，從而顯著提高研究效率。其核心創(chuàng)新在于采用雙類別排序系統(tǒng)：通過將真實發(fā)現(xiàn)的smORF與計算機生成的隨機“誘餌”序列進行比較，ShortStop能夠快速評估新發(fā)現(xiàn)的smORF是否可能具有功能性，從而優(yōu)先篩選出值得深入研究的候選者。

團隊將ShortStop應用于已發(fā)布的smORF數(shù)據(jù)集后，發(fā)現(xiàn)約8%的序列可能編碼功能性微蛋白，并已將其列為優(yōu)先驗證目標。該工具還能識別出以往方法遺漏的微蛋白，包括在人體細胞和組織中實際表達的種類。尤為重要的是，它可直接利用廣泛存在的RNA測序數(shù)據(jù)，這意味著許多實驗室無需額外實驗即可開展微蛋白研究。

在一項應用實例中，團隊使用ShortStop分析了肺癌相關的遺傳數(shù)據(jù)，從腫瘤與正常肺組織的對比中識別出210種全新的微蛋白候選者。其中一種微蛋白在腫瘤組織中顯著升高，顯示出作為肺癌生物標志物或治療靶點的巨大潛力，驗證了該工具在疾病研究中的實用性。

來源：科技日報