AI新工具探索“被忽視的DNA區(qū)域”
美國索爾克研究所開發(fā)出一種名為ShortStop的機器學習框架,用于探索以往“被忽視的DNA區(qū)域”,尋找在疾病中發(fā)揮關鍵作用的微蛋白。相關研究發(fā)表在最新一期《BMC方法學》上。
研究人員與運行中的ShortStop。圖片來源:美國索爾克研究所
這些微蛋白是蛋白質家族中的小型成員,其組成氨基酸通常少于150個,因此難以通過傳統(tǒng)蛋白質分析方法檢測。長期以來,它們隱藏在基因組中被視為“非編碼”或“垃圾DNA”的99%區(qū)域中,從未被充分研究。然而,越來越多證據(jù)表明,這些區(qū)域并非無用,其所編碼的微蛋白在調節(jié)健康與疾病過程中扮演重要角色。
傳統(tǒng)研究方法主要關注編碼大型蛋白質的DNA區(qū)域,而忽略了可能包含微蛋白編碼指令的小開放閱讀框(smORF)。盡管已有實驗方法識別出了數(shù)千個smORF,但這些方法成本高、耗時長,且無法有效區(qū)分具有生物學功能的微蛋白與無功能的序列,嚴重限制了相關研究的進展。
ShortStop的出現(xiàn)改變了這一局面。該AI工具通過機器學習訓練,不僅能夠從大型基因數(shù)據(jù)庫中識別出潛在的smORF,還能預測哪些微蛋白最有可能具備生物學相關性,從而顯著提高研究效率。其核心創(chuàng)新在于采用雙類別排序系統(tǒng):通過將真實發(fā)現(xiàn)的smORF與計算機生成的隨機“誘餌”序列進行比較,ShortStop能夠快速評估新發(fā)現(xiàn)的smORF是否可能具有功能性,從而優(yōu)先篩選出值得深入研究的候選者。
團隊將ShortStop應用于已發(fā)布的smORF數(shù)據(jù)集后,發(fā)現(xiàn)約8%的序列可能編碼功能性微蛋白,并已將其列為優(yōu)先驗證目標。該工具還能識別出以往方法遺漏的微蛋白,包括在人體細胞和組織中實際表達的種類。尤為重要的是,它可直接利用廣泛存在的RNA測序數(shù)據(jù),這意味著許多實驗室無需額外實驗即可開展微蛋白研究。
在一項應用實例中,團隊使用ShortStop分析了肺癌相關的遺傳數(shù)據(jù),從腫瘤與正常肺組織的對比中識別出210種全新的微蛋白候選者。其中一種微蛋白在腫瘤組織中顯著升高,顯示出作為肺癌生物標志物或治療靶點的巨大潛力,驗證了該工具在疾病研究中的實用性。
來源:科技日報


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉載。