多細(xì)胞生物中的不同細(xì)胞類型擁有相同的基因組,但由于基因表達(dá)的差異調(diào)控,它們表現(xiàn)出高度特化的功能特征。調(diào)控序列通過(guò)以細(xì)胞類型特異性的方式招募序列特異性轉(zhuǎn)錄因子(TF)來(lái)決定基因表達(dá)模式。染色質(zhì)可及性是調(diào)控 DNA 的通用標(biāo)志,可通過(guò) DNA 酶 I 超敏感性測(cè)序(DNase-seq)和基于轉(zhuǎn)座酶可及染色質(zhì)測(cè)序(ATAC-seq)進(jìn)行測(cè)量。利用這些檢測(cè)方法,已經(jīng)在哺乳動(dòng)物中開(kāi)展了多項(xiàng)大規(guī)模工作以繪制全基因組范圍內(nèi)的調(diào)控序列。然而,對(duì)于大多數(shù)物種而言,全面的細(xì)胞類型解析調(diào)控序列圖譜仍不可用。
利用深度學(xué)習(xí)(Deep Learning)模型直接從 DNA 序列中預(yù)測(cè)調(diào)控和表達(dá)信號(hào),是現(xiàn)代基因組學(xué)領(lǐng)域的一個(gè)里程碑。最近,深度學(xué)習(xí)模型已被用于預(yù)測(cè)單細(xì)胞水平的染色質(zhì)可及性和基因表達(dá)。此前,郭國(guó)驥教授團(tuán)隊(duì)開(kāi)發(fā)了女?huà)z(Nvwa)模型,實(shí)現(xiàn)了細(xì)胞類型特異性基因表達(dá)的圖譜規(guī)模單細(xì)胞分辨率預(yù)測(cè),還開(kāi)發(fā)了華佗(Huatuo)模型,有助于在幾乎所有細(xì)胞類型中以單核苷酸水平解碼與疾病相關(guān)的調(diào)控序列。但遺憾的是,目前大多數(shù)細(xì)胞圖譜數(shù)據(jù)在靈敏度或通量方面存在局限性,這阻礙了高精度預(yù)測(cè)模型的生成。
以 AlphaFold 為代表的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型已經(jīng)取得了巨大成功,而基因組學(xué)領(lǐng)域的預(yù)測(cè)模型仍有待實(shí)質(zhì)性突破。
2025 年 7 月 8 日,浙江大學(xué)醫(yī)學(xué)院/良渚實(shí)驗(yàn)室郭國(guó)驥教授團(tuán)隊(duì)在國(guó)際頂尖學(xué)術(shù)期刊 Cell 上發(fā)表了題為:Modeling the vertebrate regulatory sequence landscape by UUATAC-seq and deep learning 的研究論文。
該研究建立了超高通量、超靈敏的單核 ATAC 測(cè)序技術(shù)(UUATAC-seq),可在一天內(nèi)高效率高質(zhì)量的完成一個(gè)物種的染色質(zhì)可及性圖譜?;谠摷夹g(shù),研究團(tuán)隊(duì)為五大代表性脊椎動(dòng)物中繪制候選順式調(diào)控元件圖譜,開(kāi)發(fā)了多任務(wù)深度學(xué)習(xí)模型--女?huà)zCE(Nvwa cis-regulatory element),并實(shí)現(xiàn)了從基因組序列到單細(xì)胞水平調(diào)控元件圖譜的直接預(yù)測(cè)。
研究團(tuán)隊(duì)發(fā)現(xiàn),脊椎動(dòng)物調(diào)控語(yǔ)法的保守性明顯強(qiáng)于核苷酸序列本身,且該語(yǔ)法將脊椎動(dòng)物調(diào)控原件序列在高維分類為不同的功能模塊,由此揭示細(xì)胞類型特異性基因表達(dá)的序列基礎(chǔ)。另外,女?huà)zCE 模型在多項(xiàng)指標(biāo)上,超越現(xiàn)有的基因組 AI 模型,并能精準(zhǔn)預(yù)測(cè)合成突變對(duì)譜系特異性調(diào)控元件功能的影響。最后,團(tuán)隊(duì)利用基因編輯實(shí)驗(yàn),首次驗(yàn)證了完全由人工智能(AI)設(shè)計(jì)的人類疾病治愈性位點(diǎn)。這項(xiàng)研究為全面解讀基因組語(yǔ)言和建立數(shù)字生命模型奠定了堅(jiān)實(shí)基礎(chǔ)。
脊椎動(dòng)物基因組中的調(diào)控序列仍未被完全理解。為解決這一問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一種超高通量、超靈敏的單核 ATAC 測(cè)序技術(shù)(UUATAC-seq),能夠在一天內(nèi)構(gòu)建出一個(gè)物種的染色質(zhì)可及性圖譜。
利用 UUATAC-seq 技術(shù),研究團(tuán)隊(duì)在五個(gè)具有代表性的脊椎動(dòng)物物種(哺乳類-小鼠、鳥(niǎo)類-雞、爬行類-守宮、兩棲類-蠑螈、水生類-斑馬魚(yú))中繪制了候選順式調(diào)控元件(cis-regulatory element,cCRE)的圖譜。
分析結(jié)果表明,不同物種間基因組大小的差異會(huì)影響順式調(diào)控元件(cCRE)的數(shù)量,但不會(huì)影響其大小。
研究團(tuán)隊(duì)進(jìn)一步推出一種大型任務(wù)深度學(xué)習(xí)模型--女?huà)zCE(Nvwa cis-regulatory element,簡(jiǎn)稱 NvwaCE),旨在解讀順式調(diào)控"語(yǔ)法",并能直接從基因組序列中高精度地預(yù)測(cè) cCRE 景觀。女?huà)zCE 證明了調(diào)控"語(yǔ)法"比核苷酸序列更具保守性,并且這種"語(yǔ)法"將 cCRE 組織成不同的功能模塊。
此外,女?huà)zCE 還能準(zhǔn)確預(yù)測(cè)合成突變對(duì)譜系特異性 cCRE 功能的影響,這與因果數(shù)量性狀位點(diǎn)(QTL)和基因組編輯結(jié)果相一致。具體來(lái)說(shuō),女?huà)zCE 預(yù)測(cè)出了一個(gè)鐮狀細(xì)胞病的治愈性基因突變位點(diǎn)(HBG1-68:A>G),這一突變位點(diǎn)從未在單核苷酸多態(tài)性數(shù)據(jù)庫(kù)(dbSNP)或任何已發(fā)表的論文中被記錄過(guò)。進(jìn)一步驗(yàn)證實(shí)驗(yàn)顯示,該位點(diǎn)在基因編輯后能夠?qū)崿F(xiàn)胎兒血紅蛋白表達(dá)量的顯著提升,這也是首次在人類細(xì)胞中證明了基因組 AI 模型精準(zhǔn)預(yù)測(cè)功能性位點(diǎn)的性能。
總的來(lái)說(shuō),該研究開(kāi)發(fā)了能夠高效構(gòu)建染色質(zhì)可及性圖譜的 UUATAC-seq 技術(shù),以及用于脊椎動(dòng)物染色質(zhì)圖譜預(yù)測(cè)的基因組 AI 模型--女?huà)zCE(NvwaCE),這些成果為進(jìn)一步破譯脊椎動(dòng)物基因組的調(diào)控語(yǔ)言提供了寶貴資源。
論文鏈接:
https://www.cell.com/cell/fulltext/S0092-8674(25)00686-5
合作咨詢
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com