當AI“進擊”蛋白質結構預測

當AI“進擊”蛋白質結構預測


	新華網（ 2021-09-22 07:13:45 ）	來源：《環球》雜志

2017年諾貝爾化學獎得主理查德·亨德森手持一個蛋白質模型

　　中國結構生物學家饒子和院士的講話被認為代表了結構生物學界的心聲：“我們沒必要抗拒人工智慧的結構預測演算法，而是要去擁抱這種新技術，因為它只會推動這個領域以更快的速度發展。”

葉盛

　　字母表公司旗下的人工智慧公司深層思維（DeepMind）近期在《自然》雜志上先後發表了兩篇關于其開發的用于蛋白質結構預測的人工智慧係統AlphaFold 2的研究論文，第一篇描述了AlphaFold 2的基本演算法原理，第二篇宣布將AlphaFold 2開放給全世界研究者使用，並且公開了一個由AlphaFold 2已經預測得到的蛋白質結構所組成的數據庫，該數據庫涵蓋了人類基因組直接對應的蛋白質中的98.5%。

　　就在深層思維發表上述第一篇論文的同一天，美國華盛頓大學教授戴維·貝克與國際上多家研究機構合作的團隊也在《科學》雜志上發表論文，公布了其開發的基于深度學習的蛋白質結構預測程式RoseTTAFold，並且將全部代碼開源。

　　正如18世紀末至19世紀初第一次工業革命期間，一些工人擔心由蒸汽機驅動的大機器會搶奪他們賴以為生的工作崗位一樣，人工智慧（AI）在蛋白質結構預測領域的崛起也讓科學圈驚呼：“結構生物學家都要失業了！”

　　事實果真如此嗎？

蛋白質與結構生物學

　　“蛋白質”或許是科學名詞中最糟糕的翻譯之一。它的英文“protein”源自希臘語，有“首要”之義，説明蛋白質是生命最為重要的一種組成物質。然而，“蛋白質”這幾個漢字卻只會更容易讓人聯想到它的營養價值。

　　人體細胞，乃至地球上任何一種生命的細胞，都是主要由蛋白質構成的。所以，人才需要攝入蛋白質，把它們消化成簡單的20種基本氨基酸，再由人的細胞按照人自己的基因編碼把這些基本氨基酸合成人自身的蛋白質。

　　從化學上講，蛋白質就是由很多氨基酸串聯在一起形成的一條長鏈——肽鏈。早在19世紀中葉蛋白質被發現之後不久，化學家們就在實驗中證實了氨基酸與蛋白質之間的構成關係。但人們並不知道氨基酸是以怎樣的順序串聯為肽鏈的，更不知道它們在三維空間中的立體結構是怎樣的。因此，化學家們對于蛋白質總是感到“憂心忡忡”。

　　他們的擔心是有理由的，因為僅僅知道一個分子由哪些原子構成，並不足以讓人們認識這種分子，即便是五六個原子構成的分子，也存在化學組成相同、立體結構卻完全不同的可能，被稱為“立體異構體”。

　　顯然，當構成分子的原子越多，可能形成的不同空間結構也就越多。蛋白質作為一種生物大分子，其所包含的原子數量成千上萬。比如與血糖密切相關的胰島素的化學式是C₂₅₇H₃₈₃N₆₅O₇₇S₆，紅細胞中用來攜帶氧的血紅蛋白的化學式是C₇₅₈H₁₂₀₄O₄₀₃N₁₉₅S₂Fe，而這兩者還只是相對較小的蛋白質。當如此之多的原子構成蛋白質時，它們在空間中的排布是怎樣的？這個問題的答案很難通過想像或計算得到，只能通過實驗來測定。研究這類問題的科學就是結構生物學。

　　由于蛋白質的尺度為奈米級，比人類肉眼的可見光波長還要小，也就超越了光學顯微鏡的觀察極限。因此，研究蛋白質的結構，必須採用某種間接的方式。

　　結構生物學家最初採用X射線晶體學方法研究肌紅蛋白和血紅蛋白，並在20世紀50年代初步獲得了兩者的蛋白質結構，但是分辨率較低，僅為6埃左右。“埃”是結構生物學中普遍採用的長度單位，1埃為10^-10米，即0.1奈米。分辨率數值越大，意味著“看”得越粗糙；數值越小，説明“看”得越精細。6埃的分辨率不足以準確判定每個原子的位置，但已能大體展現肽鏈是如何折疊為蛋白質的。

　　此後，越來越多的蛋白質結構得到解析，分辨率也逐漸提升到3埃以上，足以讓科學家給出結構中每一個原子的準確空間坐標。研究結構生物學的方法也不再限于X射線晶體學方法，還出現了核磁共振方法、冷凍透射電子顯微鏡方法等。

　　作為一種分子，蛋白質的氨基酸序列決定了它的化學組成。但是結構生物學的研究表明，蛋白質的功能更與其結構息息相關。對于起到“搭建”作用的蛋白質來説，結構無疑是其功能的根本。對于起到催化作用的蛋白質來説，序列上相隔甚遠的兩三個氨基酸，很可能經過折疊之後在空間中湊到一起，並以一種精確的方式構成獨特的化學微環境，從而促成催化反應的發生。再比如前文提到的血紅蛋白，其結構研究持續至今，仍未結束。科學家現在已經能夠精確測定血紅蛋白中鐵離子的位移，其零點幾埃的位置變化就可能改變對氧分子的親合力，從而實現結合氧再釋放氧的動態功能。

　　可以説，幾乎所有生物學問題都會牽涉到蛋白質，而幾乎所有蛋白質的功能問題最終都要通過結構研究去回答。

結構之難，難于基因

　　結構生物學在2000年前後經歷了一個快速發展階段，新技術新方法不斷涌現，但隨後就遭遇了“滑鐵盧”。2003年，“人類基因組計劃”宣布基本完成了人類基因組草圖的繪制。這一成果極大地鼓舞了生物學界，也包括結構生物學家們。他們提出了多個“結構基因組計劃”，旨在解析人類或其他某種生物的全部蛋白質結構。但遺憾的是，這些計劃在多年後均以失敗告終。

　　蛋白質結構測定與基因組測序最大的區別在于，基因組序列是一維的、線性的，資訊僅有4種可能的代碼（A、C、T、G）；而蛋白質結構是三維的，每個原子的坐標在XYZ三個方向上都可以是任意的數值。因此，基因組測序無論測的是什麼物種的基因組，本質上都是在做同一件事，可以通過機器進行自動化、規模化的操作；而蛋白質結構測定則是各不相同的課題，科學家始終沒能找到批量處理的方法。

　　以最經典的X射線晶體學方法為例，第一道門檻是目標蛋白質的獲取，第二道門檻是獲得目標蛋白質的晶體。與小分子不同，蛋白質通常都非常脆弱，環境條件稍不注意，其結構就可能被破壞，因此，其制備是件很需要技巧的工作。而蛋白質的結晶更是一個瓶頸，比小分子的結晶困難得多。

　　即便困難重重，結構生物學家們也已獲得了超過10萬種不同蛋白質的三維結構。這個數字似乎很多，但其實遠遠不夠。“人類基因組計劃”告訴我們，人類大約有不到2萬個基因，但是考慮到信使RNA的不同剪輯，以及翻譯後修飾等問題，人類細胞能夠生産的蛋白質很可能多達100萬種，保守估計也有10萬到20萬種。

　　而這還僅僅是人類而已。由于不同物種之間基因序列的差異性，其蛋白質也是不同的。也就是説，人類的血紅蛋白與猴子或老鼠的血紅蛋白肯定是不同的蛋白質。考慮到地球物種的多樣性，特別是細菌等微生物的豐富性，世界上天然存在的蛋白質很可能達到數萬億種。

　　如此多的蛋白質，要想一一測定它們的結構，顯然是個不可能完成的任務。那麼，有沒有可能把蛋白質的結構推算出來呢？

從測定到預測

　　蛋白質的氨基酸序列很容易從其編碼基因的序列翻譯得來，這在後基因組時代只需點幾下滑鼠就可以完成。而一旦氨基酸序列確定，蛋白質的空間結構通常也是確定的。只是科學家直到今天也不知道從序列到結構的科學法則。但既然是一一對應關係，就可以嘗試通過計算進行預測，這就是蛋白質結構預測的由來。

　　最初的結構預測主要基于與已有結構的序列比對，以及能量最小化。這樣做的理論基礎是：序列相似的蛋白質，其結構也往往比較相似；而蛋白質折疊之後的結構應該是一個穩定的結構狀態，所以其內部勢能應該處于最小值。但是，基于這一思想的結構預測程式始終不能達到非常高的預測精度。

　　自從AlphaGo在圍棋比賽中戰勝人類最高水準選手之後，AI演算法熱度陡升，被應用于生産生活的諸多方面，當然也包括科研。近來獲得極大進展的深度學習等演算法，尤其適于處理所謂的“黑箱問題”，也就是不清楚“輸入”與“輸出”之間的確切原理、機制或公式的問題。圍棋如此，蛋白質從序列到結構的折疊問題亦如此。

　　開發AlphaGo的深層思維公司很快就將研究重心轉向了蛋白質結構預測領域，並取得了顯著成果。2018年，深層思維公司開發的人工智慧程式AlphaFold在國際蛋白質結構預測比賽（CASP）中取得了第一名。2020年，採用了新思路和新神經網絡框架的AlphaFold 2在CASP中再次取得第一名，並展現出遠遠高于其他預測程式的準確度。AlphaFold 2的預測結構與通過X射線晶體學等方法獲得的實測結構相當接近，各氨基酸α碳原子的位移均方根差僅為0.96埃。

　　今年7月，深層思維公司公開了由AlphaFold 2預測得到的蛋白質結構數據庫，涵蓋了人類基因組直接對應的蛋白質中的98.5%。這是一個令人驚嘆的偉大成就，在硅基空間中已經基本實現了當初“結構基因組計劃”的宏願。

開啟未來

　　在AlphaFold 2一鳴驚人之後，結構生物學家們最常被問到的問題就是：“你們是不是要失業了？”在2020年第十八次中國暨國際生物物理大會開幕式上，中國結構生物學家饒子和院士的講話被認為代表了結構生物學界的心聲：“我們沒必要抗拒人工智慧的結構預測演算法，而是要去擁抱這種新技術，因為它只會推動這個領域以更快的速度發展。”

　　的確，有一部分結構生物學的研究工作可以被AlphaFold 2取代。比如在較低的分辨率上討論蛋白質的整體結構，包括肽鏈的折疊走向、各個結構域的相對位置關係等等。因為偏差優于1埃的預測結構，顯然要比3埃分辨率的實測結構更準確，而3埃通常被認為是可以判斷原子準確位置的分辨率下限。

　　但是，還有一些研究工作對于蛋白質結構的準確度要求極高。比如前文談到血紅蛋白中鐵離子的位移，是在零點幾埃的尺度上進行討論的。對于這類結構細節的精細分析，預測結構無法作為討論的基礎，因為其中一絲一毫的不確定性都可能導致完全不同的結論。

　　再比如在藥物研發中，作為藥物靶標的蛋白質的結構是相應藥物設計與改造的基礎。如果蛋白質結構數據有誤，以之為基礎開發的藥物分子就不可能與真實的蛋白質相結合，也就無法發揮藥效。因此，這類研究仍然只能依賴于通過實驗方法測定得到的蛋白質真實結構。

　　這樣來看，是不是應用AI技術的蛋白質結構預測程式並沒有帶來什麼革命性的改變呢？事實並非如此。由于AlphaFold 2的出現，結構生物學家們獲得了一件新的利器，能夠以全新的方式開展結構生物學研究。比如，這些預測的結構可以作為晶體學計算中的初始模型，從而繞開麻煩的“相位問題”；也可以作為冷凍電鏡方法中大型復合物各個亞基的初始模型，從而減小模型搭建的難度。再比如，對于始終不能結晶的蛋白質，可以先參考預測結構，對其進行一些截短或突變處理，使之變得更易于結晶。

　　此外，對于不熟悉結構生物學的生物學家來説，AlphaFold 2的出現也是一個福音。以前他們感興趣的蛋白質如果沒有已知結構，就只能去找結構生物學家合作，而獲得的結果也未必對他們要研究的問題有幫助。現在，他們可以先用AlphaFold 2的預測結構進行初步研究，以判斷自己是否還需要通過合作來獲得其準確的精細結構。

從預測到設計

　　前述貝克團隊開發的RoseTTAFold達到了與AlphaFold 2相接近的準確度，且運算速度要快得多。對于一個普通大小的蛋白質，一臺用于遊戲的主流配置電腦僅需10分鐘左右就能完成結構預測。這很可能是因為，貝克團隊在多年結構預測研究的積累下，對于蛋白質結構有著更為深刻的認知，從而以更加合理的方式建立了高效的神經網絡。

　　其實，作為蛋白質結構預測領域的領軍人物之一，貝克近年來的研究重點已經從蛋白質結構預測轉向了人工蛋白質設計。新冠肺炎疫情爆發後，貝克團隊就在《自然》雜志上發表論文，介紹了一種人工設計的蛋白質，能夠與新冠病毒表面的刺突蛋白牢固地結合在一起，遮罩病毒與受體的結合面。這種蛋白質能夠替代中和抗體的作用，卻比中和抗體蛋白小得多，也穩定得多。這項工作向科學家們展示了人工設計蛋白質在未來醫藥應用上的廣闊前景，它們甚至有可能取代抗體藥物，成為藥物研發領域的明日皇冠。

　　然而蛋白質設計是一件比結構測定更加困難的事。由于科學家還不清楚從蛋白質序列到結構的科學法則，因此不能簡單地直接設計出具備某種特定功能的蛋白質序列。目前貝克團隊採用的方法是先在隨機生成的蛋白質序列中進行篩選，通過結構預測程式獲得這些序列對應的結構，再依據結構判斷哪些序列有可能達到設計功能。最後再對篩選得到的有限蛋白質進行生物學上的合成與功能的實際驗證。

　　但是上述過程中的篩選步驟需要極其巨大的計算量。以一個氨基酸序列長度為100的小型蛋白質為例，由于序列上的每一位都可以是20種基本氨基酸中的任何一種，所以這個蛋白質理論上有20¹⁰⁰種不同的可能序列。這個數字大約是1.3×10¹³⁰，比可觀測宇宙中所有恒星的數量還要高100多個數量級。與之相比，自然界真實存在的蛋白質種類不過是滄海一粟。正因為如此，科學家才需要高效而準確的蛋白質結構預測程式，能夠在可接受的時間內嘗試盡可能多的序列組合，從而提高獲得設計功能的可能性。

　　應對這些海量的非天然蛋白質序列的結構預測工作，恐怕才是AlphaFold 2和RoseTTAFold等人工智慧蛋白質結構預測程式真正的用武之地。同時，也正是在這些AI演算法的推動之下，結構生物學以及蛋白質設計的發展必然進入一條快車道，為藥物研發帶來一個更加光明的未來。

　　至于結構生物學家們，也將在AI的輔助下，逐步從蛋白質樣品制備與結晶等的繁瑣工作中解脫出來，把更多的精力投入到對蛋白質結構本身的分析與研究，以及人工蛋白質的設計工作中去。

　　（作者係北京航空航太大學大數據精準醫療高精尖創新中心特聘研究員，中國科普作家協會理事）

來源：2021年9月22日出版的《環球》雜志第19期

《環球》雜志授權使用，其他媒體如需轉載，請與本刊聯繫

本期更多文章敬請關注《環球》雜志微博、微信客戶端：“環球雜志”

　請注意：

·遵守中華人民共和國有關法律、法規，尊重網上道德，承擔一切因您的行為而直接或間接引起的法律責任。
·新華網擁有管理筆名和留言的一切權利。
·您在新華網留言板發表的言論，新華網有權在網站內轉載或引用。
·新華網新聞留言板管理人員有權保留或刪除其管轄留言中的任意內容。
·如您對管理有意見請向留言板管理員反映。

發表評論： 用戶名密碼匿名

　查看評論

推薦給朋友：

　　相關新聞:

新華網版權與免責聲明：
①	凡本網注明"稿件來源：新華網"的所有文字、圖片和音視頻稿件，版權均屬新華社和新華網所有，任何媒體、網站或個人未經本網協議授權不得轉載、連結、轉貼或以其他方式復制發表。已經本網協議授權的媒體、網站，在下載使用時必須注明"稿件來源：新華網"，違者本網將依法追究責任。
②	本網未注明"稿件來源：新華網"的文/圖等稿件均為轉載稿，本網轉載出于傳遞更多資訊之目的，並不意味著讚同其觀點或證實其內容的真實性。如其他媒體、網站或個人從本網下載使用，必須保留本網注明的"稿件來源"，並自負版權等法律責任。如擅自篡改為"稿件來源：新華網"，本網將依法追究責任。如對稿件內容有疑議，請及時與我們聯繫。
③	如本網轉載稿涉及版權等問題，請作者在兩周內速來電或來函與新華網聯繫。

訂閱本刊

本刊通用網址：環球雜志

如果您對《環球》雜志的稿件有任何意見及建議請與我們聯繫。

編輯部電話:
010-63077031

E-mail:
globe1980@vip.sina.com

社址：北京市京原路8號新華社第二工作區

郵遞區號：100040

對外合作:
010-63077015

傳真:010-63073516

總編輯：馮瑛冰

執行總編輯：卞卓丹

《環球》雜志
新華通訊社主管
瞭望周刊社主辦
環球雜志社編輯出版

·全彩半月刊

·出版日期:每月1日/16日

·國內統一刊號:CN11-1273/D

·郵發代號:2-511

·國外郵發代號:SM341

·國內訂閱:
全國各地郵局均可訂閱本刊隨時辦理郵購

·全年訂閱價：192.00元

·國內零售:
全國各大中城市報刊攤點/地鐵/機場/書店等均有銷售

·零售價：8.00元

·國外總發行:
中國國際圖書貿易總公司（北京399信箱）

·海外定價：US $6.00元 HK $25.00