蛋白質(zhì)工程,是基于蛋白質(zhì)具有的靈活性,通過人工手段改變氨基酸序列,實(shí)現(xiàn)對(duì)蛋白質(zhì)結(jié)構(gòu)和功能的修飾和改造。與基因組工程相比,它可直接對(duì)蛋白質(zhì)分子進(jìn)行操縱,借助突變的迭代積累,快速完成蛋白功能的優(yōu)化和創(chuàng)新,速度較自然演變實(shí)現(xiàn)了指數(shù)級(jí)提升。鑒于蛋白質(zhì)工程在基礎(chǔ)研究和產(chǎn)業(yè)應(yīng)用的廣泛潛力,預(yù)計(jì)相關(guān)的市場規(guī)模超過數(shù)百億美元。
目前,蛋白質(zhì)工程改造的策略主要包括結(jié)構(gòu)引導(dǎo)的蛋白質(zhì)理性設(shè)計(jì)和定向進(jìn)化,但這些方法往往依賴經(jīng)驗(yàn),且存在實(shí)驗(yàn)周期長、成本高的問題,限制了其規(guī)?;瘧?yīng)用。理想的蛋白質(zhì)工程策略,應(yīng)能以最小的投入實(shí)現(xiàn)最優(yōu)的工程性能。
近年來,人工智能(Artificial Intelligence,AI)迅猛發(fā)展,在生命科學(xué)領(lǐng)域的應(yīng)用也不斷涌現(xiàn)。通過訓(xùn)練特定蛋白專有的人工智能模型實(shí)現(xiàn)突變模擬和功能改造是蛋白質(zhì)工程新方向。但這些模型在拓展應(yīng)用到多種蛋白時(shí)存在困難,面臨通用性欠佳的問題;此外,模型訓(xùn)練和下游驗(yàn)證需要大量的計(jì)算和實(shí)驗(yàn)成本,進(jìn)一步限制了其廣泛應(yīng)用(圖1A)。因此,有必要開發(fā)一種高效、普適且無需復(fù)雜模型訓(xùn)練的蛋白質(zhì)工程計(jì)算模擬策略,以最大限度地減少計(jì)算負(fù)荷、實(shí)現(xiàn)最大化性能,這對(duì)推動(dòng)蛋白質(zhì)改造具有重要價(jià)值。
2025 年 7 月 7 日,中國科學(xué)院遺傳與發(fā)育生物學(xué)研究所高彩霞團(tuán)隊(duì)在國際頂尖學(xué)術(shù)期刊 Cell 上發(fā)表題為:Advancing protein evolution with inverse folding models integrating structural and evolutionary constraints 的研究論文。
該研究基于整合了結(jié)構(gòu)與進(jìn)化約束的通用逆折疊模型,開發(fā)了一種新型人工智能蛋白質(zhì)工程計(jì)算模擬方法--AiCE(AI-informed Constraints for protein Engineering)。該方法無需訓(xùn)練專屬 AI 模型,即可實(shí)現(xiàn)蛋白質(zhì)高效進(jìn)化模擬和功能設(shè)計(jì)。研究團(tuán)隊(duì)利用 AiCE 對(duì)多種基因編輯工具進(jìn)行進(jìn)化優(yōu)化,成功實(shí)現(xiàn)了其效率和精度的快速提升。
蛋白質(zhì)逆折疊(inverse folding)是利用 AI 模型,通過給定三維結(jié)構(gòu)預(yù)測可兼容序列的過程。通用的蛋白質(zhì)逆折疊模型,例如 ESM-IF1 和 ProteinMPNN,通過天然蛋白質(zhì)結(jié)構(gòu)和序列的訓(xùn)練,可以隱式學(xué)習(xí)蛋白質(zhì)骨架的幾何和物理特性,捕捉由進(jìn)化動(dòng)力學(xué)塑造的蛋白質(zhì)序列的復(fù)雜分布模式。
研究團(tuán)隊(duì)基于現(xiàn)有通用逆折疊模型開發(fā)了 AiCEsingle模塊,具體來說:基于給定的蛋白質(zhì)三維結(jié)構(gòu),對(duì)逆折疊模型輸出的氨基酸序列開展采樣,來提名高頻出現(xiàn)的氨基酸類型,進(jìn)一步通過結(jié)構(gòu)約束對(duì)氨基酸頻率開展差異篩選,得到最終預(yù)測的單個(gè)氨基酸替換類型。
研究團(tuán)隊(duì)利用 60 個(gè)深度突變掃描(DMS)數(shù)據(jù),測試了 AiCEsingle的性能,發(fā)現(xiàn)其實(shí)現(xiàn)了 16% 的預(yù)測準(zhǔn)確率;通過消融實(shí)驗(yàn)和邏輯回歸分析,證明結(jié)構(gòu)限制在方法中的必要性,相比于無限制方案性能提升了 37%;進(jìn)一步的平行比較分析表明 AiCEsingle相比于其它常見 AI 模型實(shí)現(xiàn)了 36%-90% 以上的性能提升。從蛋白類型來看,AiCEsingle實(shí)現(xiàn)了復(fù)雜蛋白和蛋白質(zhì)-核酸復(fù)合物諸如CRISPR蛋白、SARS-CoV-2病毒蛋白等的有效進(jìn)化,具有廣泛的通用性。
為了克服突變組合廣泛存在的負(fù)向上位效應(yīng),研究團(tuán)隊(duì)進(jìn)一步假設(shè)存在進(jìn)化耦合的氨基酸位置可能存在功能協(xié)同,構(gòu)建了通過預(yù)測進(jìn)化耦合性來預(yù)測突變組合位置的 AiCEmulti模塊(圖1B)。6 個(gè)突變文庫的分析結(jié)果表明,AiCEmulti 與蛋白質(zhì)大模型 SaProt 預(yù)測能力相當(dāng),但計(jì)算成本極低。研究團(tuán)隊(duì)建立的包含兩類模塊的 AiCE 方法,可實(shí)現(xiàn)單突和組合突變的快速有效預(yù)測。該方法利用了現(xiàn)有的通用逆折疊模型而無需重新/遷移訓(xùn)練專有蛋白模型,極大降低了計(jì)算成本,只需 1.15 個(gè)CPU時(shí)即可識(shí)別 SpCas9 蛋白(>1000個(gè)氨基酸)的單突和雙突變體。
圖1. 常見蛋白質(zhì)工程方法的示意圖和AiCE方法概述
利用該方法,研究團(tuán)隊(duì)進(jìn)一步在濕實(shí)驗(yàn)層面實(shí)現(xiàn)了包括脫氨酶、核定位序列、核酸酶和逆轉(zhuǎn)錄酶等 8 種結(jié)構(gòu)和功能多樣蛋白質(zhì)的 AiCE 功能驗(yàn)證,證明了其簡單、高效和通用性。借助于優(yōu)化的脫氨酶,研究團(tuán)隊(duì)深入開發(fā)了可用于精準(zhǔn)醫(yī)療和分子育種的新型堿基編輯器,包括編輯窗口縮小近一半的新型胞嘧啶堿基編輯器 enABE8e、保真度提升 1.3 倍的新型腺嘌呤堿基編輯器 enSdd6-CBE,以及活性提升 13 倍的新型線粒體堿基編輯器 enDdd1-DdCBE。
該研究的亮點(diǎn):
綜上所述,這項(xiàng)研究開發(fā)了一種基于人工智能的新型蛋白質(zhì)工程計(jì)算模擬方法--AiCE。與傳統(tǒng)蛋白質(zhì)工程方案相比,該方法在效率、可擴(kuò)展性和通用性方面均展現(xiàn)出顯著優(yōu)越。通過計(jì)算模擬甚至替代濕實(shí)驗(yàn),是當(dāng)前生命科學(xué)領(lǐng)域的重要發(fā)展趨勢(shì)和前沿方向,而該研究在此方面開展的探索具有積極意義。當(dāng)前,基于 AI 的蛋白質(zhì)分析工具往往依賴大量計(jì)算資源,這對(duì)許多實(shí)驗(yàn)室而言難以獲取。而這項(xiàng)工作表明,通過開發(fā)更高效的生物信息學(xué)工具,能夠最大限度降低計(jì)算負(fù)荷,從而讓更多生物學(xué)家切實(shí)享受到 AI 技術(shù)帶來的科研便利。正如審稿專家所評(píng)價(jià)的:AiCE 將基于 AI 的蛋白質(zhì)進(jìn)化提升到了一個(gè)全新的水平。
中國科學(xué)院遺傳與發(fā)育生物學(xué)研究所高彩霞研究員為論文通訊作者,博士后費(fèi)宏源、博士生李運(yùn)嘉為該論文共同第一作者,已畢業(yè)博士生劉怡靜、博士后魏京京和碩士生陳奧捷在課題研究中做出了重要貢獻(xiàn)。中國科學(xué)院遺傳與發(fā)育生物學(xué)研究所王秀杰研究員、西湖大學(xué)盧培龍研究員、華中科技大學(xué)薛宇教授、荊楚理工學(xué)院鄭竹清副教授提供了建設(shè)性意見。
論文鏈接:
https://www.cell.com/cell/abstract/S0092-8674(25)00680-4
合作咨詢
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com