AlphaFold 近年來展現給世人的驚喜層出不窮,使得向來被稱為生物學聖杯的蛋白質折疊問題有了新的解決方法,為整個計算生物領域帶來了更大的關注量。
其中,AI蛋白質預測與設計賽道不斷吸引着創業者與Meta、騰訊等大廠的加入。
各種算法、模型互相比拼,不斷刷新準确度、運行速度與數據庫數量。在AI的賦能下,蛋白質結構數據大大增加,使得AI蛋白質從頭設計變得可行起來。
相關算法、平台突增,但在追求硬核指标之外,也有其他值得關注之處。
“我們發現,雖然人工智能現在具備了蛋白質從頭設計的能力,但要推動整個領域的快速發展,比算法開發更重要的是要解決大家在産業實踐中遇到的種種困難。”
苗洪江來自天壤XLab,是該實驗室負責人。
他表示,基于上述背景,天壤XLab發布了一款蛋白質設計工作台——CREATOR,試圖解決跨領域技術門檻高、工作流程碎片化的問題,在同個工作台上一站式地完成全部蛋白質設計項目。
在賽道發展的早期階段,這個工作台還需要直面AI蛋白質預測與設計所遭受的質疑,通過降低使用門檻是否能為賽道帶來新的氣象?
蛋白質設計有着非常廣泛的應用場景,除了新藥研發,還能應用在新材料、新食品等領域。蛋白質設計的重要性毋庸置疑,但在AI介入前進展緩慢。
苗洪江認為,蛋白質設計共經曆3個階段,每一階段的能力提升都與人類對蛋白質結構的理解分不開。
第一個階段是最早期的20世紀90年代。
這個階段隻有少量的蛋白質結構,對于蛋白質折疊的理解也非常局限,這使得當時完全無法實現功能上的設計,隻能通過手動拼接出很簡單的二級結構片段。
第二個階段,随着蛋白質數據庫中的結構信息增加,研究人員得以從這些信息中總結出理性經驗以及更為複雜的蛋白質能量函數關系,通過實踐設計出越來越多功能的蛋白質。
但在這個階段,蛋白質設計的流程很複雜,落地也非常困難。
而第三階段,也就是當下,借助AI的技術能力,研究人員已經能夠從頭設計蛋白質,蛋白質設計的産業化應用也變得更加容易,标志着蛋白質設計已經進入了全新的時代。
在AI算法的加持下,蛋白質結構預測與設計賽道結束了“無人問津”的狀态,逐步收獲了巨大的關注。
但在實際的産業實踐中,仍有各種困難阻礙推廣。在苗洪江看來,在這個階段,要推動整個領域的快速發展,比算法開發更重要的是要解決一些難以避免的困難。
首先,蛋白質設計本身就是一個門檻超高的交叉領域,串聯着非常多的學科知識。
苗洪江介紹,在這個領域的研究人員不僅需要具備生物計算的能力,可能還要具備結構生物學、計算化學、物理學等多方面的知識背景,高門檻導緻了整個領域的推廣很難進行。
其次,現有平台的能力過于單一。
苗洪江畢業于倫敦帝國理工學院計算生物系,在校時,他就曾參與開發Phyre2蛋白質結構預測及分析平台,該平台是目前全球最常用的模拟工具之一。
他注意到,即使平台相對開源算法已經大大減輕研究員的使用門檻,但平台依然掣肘研究工作。
在AI 蛋白質設計工作裡,需要調用多種算法能力,而單個平台往往難以滿足所有需求。因此,一種很普遍的研究流程出現了——研究員需要在不同的算法平台之間切換。
“在這個平台上做計算,然後下來再去另一家平台上做計算,把結果拿下來後,還要對不同平台的計算結果進行對比分析,整個流程就非常亂套,嚴重阻礙了工作效率。”
CREATOR 要解決的正是這些痛點。
CREATOR工作台集成了市面上優秀的算法,包括天壤XLab自研的算法與所有外部開源和合作夥伴的算法。
研究員可以自由地選取算法,在CREATOR 上完成結構預測、蛋白質設計、特性分析優化的工作,省去繁瑣的切換步驟。
工作台采用可視化呈現,在使用過程中,研究員無需了解算法及其背後的原理,隻需進行簡單的輸入,建立任務并運行,就能得到結果。
在工作台上,研究員還可以對曆史任務進行跟蹤查看,以項目的方式對原本零散的任務進行分類、串聯和管理,一站式地完成從項目規劃到結果分析的整個流程。
CREATOR 适用于多肽、酶、抗體和各類功能蛋白質,使用時無需安裝軟件,在線登陸賬号就能啟用核心功能。
苗洪江這樣形容CREATOR 的作用,“當跨進門要上樓的時候,我們就是一個電梯,而不是需要一步一步走的樓梯。”
如EDA出現後,複雜的芯片功能設計、驗證與物理設計都能交由計算機處理,大大節省了時間及人力,推動芯片設計不斷往高精方向發展。
下一步,天壤XLab 将繼續擴充CREATOR 工作台的功能和算法,建設蛋白質知識圖譜,并擴展已有的功能motif庫,以進一步賦能研發人員。
天壤XLab成立于2019年。
到目前為止,團隊已推出了單鍊蛋白質結構預測平台TRFold2、蛋白質設計平台TRDesign,專注複合體結構預測的TRComplex,以及不依賴MSA信息就能預測蛋白質結構的TRFold-single。
在這些單點能力上,天壤XLab 的TRFold2成績比較理想,去年在基于CASP14蛋白質測試集内測中,獲得了TM-score 打分82.7/100的成績,今年經數據增強和模型參數擴增後得分達到90.2/100,僅次于全球第一名AlphaFold2的91.1/100的成績。
今年6月,天壤XLab宣布基于TRDesign成功設計了新冠刺突蛋白結合劑,意圖證明AI不僅能準确預測蛋白質結構,還能主動設計蛋白質。
但這些天壤XLab引以為傲的成績,在圈子外的人看來還不足以令人信服。實際上,整個AI蛋白質預測與設計賽道都面臨這樣的尴尬境地。
就在不久前,DeepMind宣布,AlphaFold 已經确定了地球上幾乎所有已知生物體中大約2億種蛋白質的結構,以後确定科學已知的蛋白質預測模型将像用“谷歌搜索”一樣簡單。這一消息引起信徒們的狂歡,但遭受外界諸多質疑。
潘毅、周耀旗、許東等幾位生物信息學領域的學者在接受《醫健AI掘金志》采訪時表示,AlphaFold蛋白質結構數據庫新更新的海量數據中存在着部分結果結構不穩定、不能應用于研究中等問題。
美國一位有着30年資深藥企從業經曆的專家也發文抨擊:AlphaFold的作用純屬媒體誇大,靠結構預測做藥“純屬自嗨”。
苗洪江坦承,由于研發人員的背景經曆不同,對事物的理解也存在差異,大家對于AI預測蛋白質結構的準确度和實用性尚有較大分歧,現在就讓大家理解并相信AI可以實現蛋白質設計及應用更是難上加難。
這是還處在年幼階段的賽道必須面對的現實。正是基于這些認知,天壤XLab選擇此時推出CREATOR工作台,希望能通過降低蛋白質設計的門檻,推動技術普及。
據《醫健AI掘金志》了解,CREATOR工作台将于10月1日正式上線,面向高校師生免費開放。到後期,天壤XLab也将推動CREATOR工作台面向企業用戶的合作。
苗洪江表示,企業級的應用對于後端算力的壓力會更大,且相比高校,企業的需求也會偏向個性化,面向企業的服務還需要更完善的團隊來支持,公司正在積極籌備。
“這個工作台能幫助我們解決很多問題,比如說,試用并了解這個領域後,會加深大家對AI設計蛋白質的認知,興趣會不斷增加,也能幫我們開啟更多合作。”
AlphaFold 取得突破性進展後,整個蛋白質計算領域十分火熱。盡管熱度已持續一段時間,但針對蛋白質計算領域的探索其實才剛剛開始。
在苗洪江看來,目前這個領域還遠遠算不上競争激烈。
“這是因為之前蛋白質計算領域,特别是在國内,是很冷門的領域,在這個領域有足夠積累、了解需要做什麼、應該怎麼做、對如何将技術落地應用有足夠思考和布局的團隊其實非常的少。”
比如,最近國内一些高校才逐漸增設計算機加生物學的專業來培養複合型人才,作為根基的人才儲備都跟不上,這個領域很難談得上競争激烈。
目前,雖然國内外都有不少公司圍繞着AlphaFold 算法做商業化,但苗洪江認為,真正屬于前沿的探索并不多。
苗洪江介紹,在這些商業化路徑中,“有用AlphaFold 做預測服務收費、售賣算力的,也有用AlphaFold 預測結果來做大範圍靶點搜索的,像美國的Cyclica,還有借助AlphaFold 輔助小分子藥物研發的,像英矽智能今年的一個試驗性管線就是借助了AlphaFold。”
而更前沿的探索,如蛋白質的從頭設計,以及把設計蛋白開發成大分子候選藥物,即發明(create)而不是現在AIDD更集中賦能的發現(screen)藥物,所面臨的技術難度和商業周期都要更困難、更漫長。
一個明顯的信号是,近年來AI制藥賽道狂奔,但更多的應用與賦能都是集中在小分子藥物研發中。
相較之下,大分子藥物數據稀缺,且技術壁壘更高,參與大分子藥物研發的AI制藥公司寥寥可數。
苗洪江表示,蛋白質從頭設計的關注熱度在國内要冷清不少,但在全球範圍,美國頭部的biotech,如Amgen、Genetech已經有所布局,來自這些美國公司的成功經驗,能夠給予國内創業者信心。
天壤XLab初期也以新藥研發為切入場景。
苗洪江提到,在蛋白質計算領域,學術和業界都非常關注的技術方向包括,如何以計算賦能藥物的靶點發現、如何設計優化特定功能蛋白質、如何計算檢測蛋白質的各項理化特性等,CREATOR 工作台将逐步上線相關的算法和能力支持。
“我們希望蛋白質設計在國内也能得到大範圍應用,但這項技術推廣的難度很大,所以我們開發了CREATOR 工作台,希望能降低技術門檻,讓更多人進入這個領域做研究,從而更快地推動應用落地。”雷峰網 雷峰網
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!