tft每日頭條

 > 圖文

 > 人工智能解析蛋白質

人工智能解析蛋白質

圖文 更新时间:2024-07-24 23:29:16

人工智能解析蛋白質?過去半個多世紀,人類一共解析了5萬多個人源蛋白質的結構,人類蛋白質組裡大約17%的氨基酸已有結構信息,而AlphaFold2預測的結構将這一數字從17%提高到58%它帶來的在生命科學各分支領域的革命,将在今後幾年到十幾年中逐漸顯現出來,今天小編就來聊一聊關于人工智能解析蛋白質?接下來我們就一起去研究一下吧!

人工智能解析蛋白質(預測蛋白質結構隻是開始AI或為生命科學領域帶來巨變)1

人工智能解析蛋白質

過去半個多世紀,人類一共解析了5萬多個人源蛋白質的結構,人類蛋白質組裡大約17%的氨基酸已有結構信息,而AlphaFold2預測的結構将這一數字從17%提高到58%。它帶來的在生命科學各分支領域的革命,将在今後幾年到十幾年中逐漸顯現出來。

蛋白質結構預測是生物學的重要“聖杯”,也是人工智能落子生命科學領域最炙手可熱的研究之一。

近日,我國自研深度學習蛋白質折疊預測平台TRFold傳來好消息,其基于2020年第14屆國際蛋白質結構預測競賽(CASP14)蛋白質測試集的成績僅次于“阿爾法折疊的疊代版”(AlphaFold2),排名全球第二,這是國内目前所有公開蛋白質結構預測模型中的最好成績,我國計算生物學領域的表現跻身全球第一梯隊。

從2018年AlphaFold第一次代表人工智能“參戰”,到AlphaFold2用機器學習方法取得媲美結構生物學實驗的精測精度,計算生物學給蛋白質預測這一世紀難題帶來了颠覆性的解法。人工智能會給生命科學領域帶來怎樣的巨變?蛋白質結構預測這個生物學裡懸而未決的終極難題之一,會被人工智能徹底解決嗎?

深度學習可在計算生物學領域廣泛應用

蛋白質結構預測是生命科學領域一個由來已久、令人着迷的問題,同時又以難度大、成本高、進展有限著稱。但這個人們本以為需要一個世紀慢慢探索的問題近年來卻取得了重大突破:2020年CASP14競賽中,谷歌公司旗下的Deepmind公司研發的AlphaFold2取得了總分(GDT)92.4/100的成績,也就是說,計算生物學幾乎獲得了與實驗室方法精确度相當的蛋白質結構預測結果。

這個裡程碑事件令結構生物學家們感慨,自己用價值1000萬美元的電鏡努力了好幾年得出的結果,Alphafold2竟然一下就算出來了。“依我之見,這是人工智能對科學領域最大的一次貢獻,也是人類在21世紀取得的最重要的科學突破之一。”生物物理學家、西湖大學校長施一公不吝贊美。

為什麼要預測蛋白質結構?

天壤蛋白質折疊項目負責人苗洪江對科技日報記者解釋,“研究蛋白質結構,有助于了解蛋白質的作用,理解蛋白質如何行使其生物功能,認識蛋白質與非蛋白質之間的相互作用,對于生物學、醫學和藥學等都非常重要”。

傳統觀測蛋白質結構的方法主要有3種,即核磁共振、X射線、冷凍電鏡,但這些方法往往依賴大量試錯和昂貴的設備,每種結構的研究都要花費數年時間。而人工智能應用于蛋白質結構預測的最新成果,即AlphaFold2,能在幾天甚至幾分鐘預測出以前要花費數十年才能得到的具有高置信度的蛋白質結構。

“剛開始大家還在開玩笑,說DeepMind是不是通過什麼方法盜取了真實實驗結果,直到大家看到文章和開源代碼才敢相信這件事情真的發生了。”苗洪江笑言,這側面證明AlphaFold2預測結果之震撼,“這開啟了人工智能在計算生物學廣泛應用的大門,讓整個領域的人看到了深度學習在這個領域可以廣泛應用,這實打實的雙盲實驗結果就是證明。”

AI預測結果和實驗室水平相當

1994年,美國科學家約翰·莫爾特(JohnMoult)發起國際蛋白質結構預測競賽,每兩年舉辦一屆,競賽的舉辦正是為了吸引計算機科學、生物物理學等不同領域的專家參與到蛋白質三維結構預測這一極具挑戰性的生物信息學問題中來。2018年,人工智能正式參與蛋白質三維結構的預測,AlphaFold首次大顯身手,在98名參賽隊伍中排名第一。兩年後,AlphaFold2帶來真正的突破,它用機器學習方法對幾乎所有的蛋白質都預測出了正确的結構,其中有大約2/3的蛋白質預測精度達到了結構生物學實驗的測量精度。

事實上,過去半個多世紀,人類一共解析了5萬多個人源蛋白質的結構,人類蛋白質組裡大約17%的氨基酸已有結構信息,而AlphaFold2預測的結構将這一數字從17%提高到58%,因為無固定結構的氨基酸比例很大,58%的結構預測已經接近極限了。它帶來的在生命科學各分支領域的革命,将在今後幾年到十幾年中逐漸顯現出來。

施一公在接受媒體采訪時曾談到,人類蛋白質組裡能夠被預測的以單個蛋白為單位的空間三維結構,已經基本都被AlphaFold2預測了。總體而言,預測結果可信、也比較準确。對結構生物學來說,這是一個颠覆性突破。此前人類尚未被解析的一些結構,現在基本上都已經被預測。

對生物化學、細胞生物學、遺傳發育、神經生物學、微生物學、病理藥理等一大批生命學科和研究領域來說,這會大大改進人們對于生命過程的理解。比如,遺傳學家也許積累了大量數據,但如果不知道蛋白質結構,就沒法研究某個突變對于蛋白功能的影響。現在不同了,通過AlphaFold2的結構預測就能查看人類遺傳病中的每一個突變在相關蛋白結構裡的具體位置,進而有可能推測出蛋白功能如何受到影響。

再比如,DeepMind預測出來的蛋白結構,包括了衆多G蛋白偶聯受體和關鍵酶在内的一大批結構未知的藥物靶點蛋白,而且預測的結構足夠準确。這對于制藥界來說太重要了,等于提供了可靠的藥物設計和藥物優化的重要基礎。

單個蛋白質結構預測隻是起點

今年7月,DeepMind公開了AlphaFold2的源代碼,并在《自然》上發表論文闡述了AlphaFold2的技術細節。

“這次開源在生物學界掀起了巨大的波瀾,意味着生物學家終于擺脫了先進設備的掣肘——此前這些昂貴的先進設備隻有經費充足的大學或研究機構才有條件配置,而此後,小型團隊或者個人研究者也有了參與蛋白質研究的可能。”天壤創始人、上海交通大學計算機系原副教授薛貴榮說。

苗洪江認為,目前的單個蛋白質結構預測隻是一個起點,更加精準的側鍊優化、蛋白質的動态分析、蛋白質與其配體(如小分子、DNA、RNA、多肽、蛋白質等)的相互作用等一系列的問題還沒有解決,接下來的工作重點将是利用目前的全蛋白質組協同進化分析,建立起蛋白質與蛋白質之間相互作用的精準鍊路。

有了算法模型隻是開始,向前走依然困難很多,薛貴榮坦言:“算力是很大的制約因素,比如AlphaFold2做了大量的數據蒸餾工作,他們的算法模型是基于30%的真實數據和70%的蒸餾數據一起訓練的,背後是巨大的算力支持。”

充足的算力可以讓蛋白質結構預測從單一結構向相互作用、從兩兩研究向規模化、從微觀結構向宏觀系統前進,“生物界有很多蛋白結構,比如基因測序大概已經測了幾十億條序列。但我們隻知道序列,不知道結構,這就是很大的信息缺失問題。”薛貴榮說,“蛋白質通常以複合物的形式成對或成組地承擔生命所需的種種功能。然而許多蛋白質複合物的結構仍然是謎,蛋白質之間的相互作用也尚未被識别。我們需要有充足的算力去支撐整個體系,進行蛋白質結構預測、蛋白質設計,研究蛋白質相互作用,藥物研發等漫長而富有挑戰的工作,尋找精準的疾病治療新方法。”

同時,在數據來源和應用方面,也需要藥廠、醫院等進行協同和聯動。“未來更多的醫藥企業、機構,以及人工智能公司,要一起把這個行業做大,現在隻是個開始。”薛貴榮說。

記者 崔 爽

來源: 科技日報

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关圖文资讯推荐

热门圖文资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved