tft每日頭條

 > 科技

 > 生物信息數據分析

生物信息數據分析

科技 更新时间:2024-07-22 17:21:25

生物信息數據分析?今年1月,依托中國科學院北京基因組研究所(國家生物信息中心)(以下簡稱基因組所)的國家基因組科學數據中心(NGDC)一批成果集中亮相:10篇論文相繼刊發于國際生物數據庫期刊《核酸研究》對于一本頂級期刊來說,這種情況并不多見,今天小編就來聊一聊關于生物信息數據分析?接下來我們就一起去研究一下吧!

生物信息數據分析(生物信息數據孤島)1

生物信息數據分析

今年1月,依托中國科學院北京基因組研究所(國家生物信息中心)(以下簡稱基因組所)的國家基因組科學數據中心(NGDC)一批成果集中亮相:10篇論文相繼刊發于國際生物數據庫期刊《核酸研究》。對于一本頂級期刊來說,這種情況并不多見。

一個剛成立6年的數據中心何以取得這樣的成績?近日,《中國科學報》走進基因組所,了解NGDC成長背後的秘密。

面向國家需要,追趕國際步伐

NGDC可追溯至2016年2月基因組所成立的生命與健康大數據中心。它的成立既是對接國家需求,也是研究所自身發展的需要。

長期以來,全世界科學家産生的組學數據都要提交給三大數據庫——美國國立生物技術信息中心(NCBI)、歐洲生物信息學研究所(EBI)、日本核酸數據庫(DDBJ)。這3家于上世紀八九十年代成立的機構在2005年建立了國際核酸序列共享聯盟(INSDC),形成領域内數據存儲和共享使用的标準。

我國科學家需要在發表論文時通過互聯網将數據提交到這些數據庫,而做科研時則需要将數據從這些數據庫下載下來,科研效率經常遭遇國際帶寬瓶頸的約束。同時,我國科學基金項目和重點研發計劃産生的大量基因組科學數據,分散在不同研究單位和實驗室,成為無法共享和進一步挖掘利用的“數據孤島”。

“對标國際三大數據庫,建成一個永續性的生物信息存儲機構,曾是我們幾代生命科學研究者30年的企盼。”在1月中旬基因組所舉行的NGDC年會上,中國科學院院士陳潤生說。

解決這些問題既是我國幾代生命科學家的呼喚,也是年輕的基因組所内在發展的需求。

“人類基因組計劃之後,研究所作為戰略科技力量,想要進一步擔當國家使命,需要轉型發展。”基因組所所長薛勇彪向《中國科學報》表示,當時的挑戰是“沒人沒錢缺機制”,優勢是“船小好調頭”。

為調整航向,基因組所進行了一系列學科布局與運行機制優化調整。

例如,在學科發展上,該所将表觀基因組和生物信息研究“幹濕結合”,進一步布局了大數據中心;運行機制上,打破傳統PI(課題組組長)模式,将分屬科研和工程系列的3個團隊整合到一個大數據中心,實現從“單兵作戰”到“集團軍作戰”的轉變;資源配置以任務導向為主,研究所“自帶幹糧”投入經費支持;考評機制上,對數據中心的工作人員打破“唯論文”考評,讓更多人看到職業發展的希望。

在此基礎上,2016年2月,該所生命與健康大數據中心應運而生,并構建了組學原始數據存儲歸檔系統(GSA)。其目标是立足中國,服務全球。

“大數據中心從一開始就對标INSDC,并邀請該聯盟專家擔任國際顧問,以增加他們對大數據中心的了解和支持。”NGDC副主任、基因組所研究員章張說,在同年10月召開的全國生物信息學與系統生物學大會上,由該大數據中心發起的中國基因組學數據共享聯盟得到了國内與會科學家的一緻支持。

2017年,鮑一明的加入讓大數據中心團隊有了學術帶頭人。

“一個人單槍匹馬的努力起不到多大作用,團隊非常重要。”NGDC主任、基因組所研究員鮑一明對《中國科學報》說。他曾在NCBI工作16年,其間多次幫助緊急遞交論文的中國科學家解決技術問題,選擇回國是希望發揮更大的作用。

“這支團隊年輕、有活力,踏踏實實做事情,而且非常團結。”他說,最關鍵的是,大家有着共同的目标——實現中國生物信息數據存管用的自立自強。

圍繞共同的願景,他們凝心聚力,“撸起袖子加油幹”。

在團隊成員的努力下,GSA先後被愛思唯爾、威利、細胞、施普林格·自然等全球主要出版集團認可。2017年起,他們還受到INSDC邀請,作為該聯盟之外的唯一一家機構參加INSDC年會并在會上作報告。

2019年6月,我國生物學家終于迎來了企盼已久的時刻:NGDC作為首批20個國家科學數據中心之一獲批成立。該中心由基因組所作為依托單位,聯合中國科學院生物物理研究所和上海營養與健康研究所共同建設,旨在成為支撐我國生命科學發展、國際知名的基因組科學數據中心。

同年11月,中央編辦批複基因組所加挂“國家生物信息中心”牌子,承擔國家生物信息大數據統一彙交、集中存儲、安全管理與開放共享,以及前沿交叉研究和轉化應用等工作。

“能夠為創新驅動和國家戰略發展服務,這是一件非常值得慶祝的事情。”NGDC顧問、北京大學教授羅靜初說。但他同時表示,“這并不是‘肥肉’,而是‘苦差事’”。

主動攻關,獲國内外認可

“打着兩塊‘國字頭’的招牌,一定要做出一點事!”鮑一明等人心裡憋着一股勁兒,摩拳擦掌準備開發并啟動多個前沿數據庫。

然而,新冠疫情突發而至。在研究所的部署下,該團隊緊急開發新冠病毒信息庫。2020年1月22日,距離春節前3天,2019新冠病毒信息庫正式發布。

該信息庫整合了全球相關機構和數據庫公開發布的冠狀病毒基因組序列數據、元信息、學術文獻等,并對不同冠狀病毒株的基因組序列做了變異分析與展示。這為此後開展病毒分子溯源、追蹤病毒株變異路徑、制定疫情防控策略等提供了數據基礎與決策支持。

例如,2020年1月,首次收錄發布由中國醫學科學院病原生物學研究所提交的國内5條新冠病毒基因組序列,并與NCBI實現數據同步共享;6月,北京新發地疫情,通過基因組比對分析确定問題出現在冷鍊三文魚,首次發現冷鍊貨物污染可能是造成局部疫情暴發的病毒源頭,為優化疫情常态化防控策略、實行“人物并重”的新型防控措施提供了科學依據;7月和次年1月,該中心專家全程參與世界衛生組織來華開展的新冠病毒溯源聯合研究,提供了有力的數據支撐,受到國内外專家組成員的好評……

“那段時間确實比較辛苦,經常連夜加班分析數據、整理材料、撰寫報告。不過,作為‘國家隊’一員,我們有責任和義務出一份力。”NGDC副主任、基因組所正高級工程師趙文明說。

據介紹,該信息庫被多家國際機構推薦使用,收到了來自國内多個機構以及美國、英國、意大利等10餘個國家研究者的積極反饋。他們來信感謝:“NGDC在極短的時間内建立了一個十分優秀、令人印象深刻的信息庫”“願意與NGDC共享數據分析結果”。

據介紹,目前新冠病毒信息庫仍在保持全球最新、最完整的相關基因組數據動态更新,為國内外科學研究和合作提供有力支撐。

汗水澆灌出榮譽。去年,研究團隊的成果入選國家“十三五”科技創新成就展,并被科技部授予“全國科技系統抗擊新冠肺炎疫情先進集體”稱号。

不隻是在新冠病毒信息庫建設方面,NGDC的科學家還“雙線作戰”,不斷提升在國際上的可見度。

“作為數據産出和使用大國,我國生物信息數量和用戶占INSDC相關比重的20%左右,是占比最多的國家之一。這意味着中國有能力成為該聯盟的一員。”鮑一明說。

但作為後來者,加入INSDC并不容易。在鮑一明和同事的努力下,目前新冠數據資源方面,雙方已在标注NGDC編号的條件下實現共享。去年,INSDC主動提出如果成為合作夥伴,希望中國科學家在數據共享和存儲方面作出貢獻。

NGDC還在“一帶一路”國際科學組織聯盟(ANSO)的支持下,建立了以我國為主的國際生物多樣性和健康大數據共享聯盟(BHDB),當前已與12個國家的28個機構建立了數據共享和科研合作關系。

務實發展,把好數據質量關

6年來,NGDC不斷夯實自身建設,已經建立了包含九大數據類型的63個數據庫,形成“數據—信息—知識”一體化數據資源體系。

鮑一明介紹,該資源體系可實現我國生物數據的安全彙交管理,同時開發了由數據可視化、序列比對、基因表達、表觀遺傳、基因組構成和新冠序列分析6個專題構成的生物信息在線分析平台(BIT),為我國生物數據的挖掘利用提供了重要支撐。

例如,GSA已彙交科技項目4700個,來自近500家單位2300個用戶遞交的數據量超12PB,為290種國内外期刊的940篇文章提供了相關數據支撐;新冠病毒信息庫目前已收錄新冠病毒序列900餘萬條,為全球179個國家和地區150多萬名訪客提供數據服務,被下載數據超26億條。

在回顧成績的時候,鮑一明和同事清醒地認識到,當前NGDC尚處于初級階段,綜合能力與國際一流機構仍有比較明顯的差距。

“比如數據整合和具有國際影響力的特色數據庫資源有待進一步發展,大數據挖掘分析技術和能力也待加強。”鮑一明說,科技部、财政部已經給予NGDC大力資助,但與國際同類機構相比,NGDC還面臨存儲計算設施、人才隊伍以及經費支持等方面的問題。

盡管還存在許多限制與挑戰,作為一名“後起之秀”,NGDC已連續5年被《核酸研究》評價為與NCBI、EBI并列的全球主要生物數據中心。

“下一步,我們要堅持務實發展,在确保數據安全的前提下,彌補在數據處理、存儲和檢索等核心技術方面的短闆,研發生物信息大數據關鍵核心算法和軟件,增強服務能力和國際影響力。”鮑一明說。

來源:中國科學報

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved