tft每日頭條

 > 科技

 > 數據科學與智慧軟件省重點實驗室

數據科學與智慧軟件省重點實驗室

科技 更新时间:2024-06-26 10:07:55

數據新作為·數據30人20城 系列報道解碼數治之道㉙

數字政府建設是推進治理能力現代化的重要支撐,是經濟社會高質量發展的必然選擇。而盤活數據資源是數字政府建設的關鍵之舉。南方都市報、南都大數據研究院推出系列專題,專訪數據開放實踐者、治理标準制定者、數據安全護航者、數據立法起草者等,并且挖掘數據應用創新舉措,探尋數治能力優秀區域,以“30人訪談為引,以20城案例為鑒”,緻力呈現新時代下的“數據新作為”,共譜數智新篇。

“科學數據本身價值在于開放共享,也符合科學無國界的精神。但并不是說所有科學數據都要開放共享,按照國際共識估算能夠開放共享的科學數據占比約為71.5%”,這是中國科學院計算機網絡信息中心大數據部副主任、國家基礎學科公共科學數據中心主任胡良霖,接受南方都市報專訪時表達的觀點。

科學數據是國家重要的基礎性、戰略性資源,是信息時代傳播速度最快、影響面最寬、開發利用潛力最大的科技資源。如何确保科學數據在全生命周期内的合規使用和有效保護,滿足科技創新對科學數據的管理需求?在胡良霖看來,需要推動國家自産的科學數據進高校、進圖書館、進課堂、進教材、進考題,培養學生使用國産科學數據庫,營造科學數據彙交文化,面向數據彙交優化科技計劃項目經費預算和使用,對承接科學數據彙交工作的科學數據中心給予經費補貼,實現數據驅動創新、數據可持續發展的目标。

科學數據驅動科研創新成效很多

南都:科學數據與工業數據、金融數據并稱為三大數據,是大數據時代最為重要的數據之一。共享開放是科學數據産生價值的關鍵所在。目前,科學數據開放應用現狀如何?

胡良霖:國内外都在大力推進科學數據開放共享,去年聯合國教科文組織發布全球“開放科學倡議書”(NESCO Recommendation on Open Science),開放科學數據是重要内容之一。1957年成立的世界數據中心(World Data Centers,現更名為世界數據系統World Data System)主要處理、交換科學數據,1988年中國正式加入該組織。國際數據委員會(CODATA)原稱國際科技數據委員會,成立于1966年,其宗旨是推動科技數據應用,發展數據科學,促進科學研究,造福人類社會,1984年6月中國作為國家會員加入CODATA。

科學數據開放共享是主旋律,但并不是說所有科學數據都要開放共享,需要遵循各國安全法律法規,在合法合規前提下最大程度開放共享,利于充分利用。2018年3月,歐盟發布《科學數據開放共享的成本效益研究》報告,按照國際共識估算,能夠開放共享的科學數據占比約為71.5%,目前國内沒有這方面的研究。

科學數據應用廣泛,開放共享與應用效果良好。科學數據驅動科研創新成效很多,比如FAST數據研究發現脈沖星等。科學數據在支持國家宏觀決策方面有很好應用,如新冠疫苗研發與抗疫決策,自然災害發生時應急救援等。科學數據助力企業自主創新也有良好産出,如材料數據支持珠港澳大橋建設、鋼鐵企業增産提效等。

雖然科學數據已經發揮巨大作用,但仍有一些工作沒有做到位,影響到科學數據更廣泛或深刻利用,背後深層次問題值得重視。今年年初我們統計分析了“雙一流”高校圖書館主頁推薦的數據庫,獲取42所一流大學、73所一流學科高校(95所一流學科高校中有22所高校圖書館主頁獲取不到相應信息)的圖書館推薦數據庫信息,共計15756條,其中事實數據庫約2000條,而推介國内科學數據信息不足50條。

近年來,我一直呼籲推動國家自産的科學數據進高校、進圖書館、進課堂、進教材、進考題。培養學生使用國産科學數據庫,促進數據庫健康良性發展。部分領域科學數據可能無法一步到位,與國外多年建設的數據庫一樣提供完全同質甚至更優服務,如果國産數據庫能滿足學生70%-80%需求,就應該引導他們用國産數據資源,通過他們的反饋加以完善發展。

今年,我們國家基礎學科公共科學數據中心(簡稱國家基礎數據中心)的中國動物主題庫相繼被浙江大學、南京農業大學、安徽師範大學、廣西大學、大理大學等10多家高校機構圖書館收錄,這是很好的開端。暑假期間,16個國家科學數據中心聯合人大附中以及北京、廣州、深圳、杭州等國内11所中學的學生會,共同開展“走近科學大數據”公益系列講座,廣受好評。

廣東已設立7個省級科學數據中心

南都:我國印發《科學數據管理辦法》為科學數據管理确定行動綱領,據你了解哪些區域在科學數據管理、開放、應用上做得較好,有哪些亮點?

胡良霖:《科學數據管理辦法》發布之後全國多地積極推動落實,主要有兩個方面進展:一是細化政策,二是建設省級科學數據中心。

具體而言,我們粗略統計全國有15個地方發布配套科學數據管理實施細則,包括陝西、黑龍江、甘肅、雲南、湖北、吉林、安徽、内蒙古、廣西、江蘇、海南、山東、四川、上海等。而省級科學數據中心建設方面,2021年甘肅成立三個省級數據中心,包括一個總中心和兩個學科領域的中心,依托中國科學院西北生态環境資源研究院建設的國家冰川凍土數據中心承擔建設甘肅省科學數據總中心,依托蘭州大學成立甘肅省氣候變化的數據中心,依托甘肅省地震局成立自然災害的科學數據中心。廣東2021年底成立7個省級科學數據中心,總中心是廣東省科技技術條件平台承擔,其他包括農業、林業、地理、中醫藥、基因組等。

我個人認為,在全國層面,廣東科學數據工作比較領先,通過支持省級科學數據中心建設,以之為抓手把工作做實,期待廣東發布科學數據管理實施細則類文件。

中國科學院、中國農業科學院、交通運輸部等機構在科學數據方面開展了不同程度的工作。《中國科學院科學數據管理與開放共享辦法(試行)》2019年2月發布,推動建設中國科學院科學數據中心體系。《中國農業科學院農業科學數據管理與開放共享辦法》2019年7月發布。交通運輸部2020年6月份在官網就《交通運輸科學數據管理辦法》(征求意見稿)公開征求意見,去年11月份交通運輸部公路科學研究院、天津水運工程科學研究院聯合國家基礎數據中心共同建設交通運輸科學數據分中心。

充分利用信息技術手段提升數據質量

南都:為了規範管理國家科技資源共享服務平台,全國已公布建設首批20個國家科學數據中心。如何确保科學數據的質量以及更好服務科技創新?

胡良霖:國家科學數據中心很重視數據質量問題,這是立身之本。過去兩年多時間,國家科學數據中心制定發布一系列與數據質量關聯的政策文件、标準規範,開放配套工具軟件予以固化落實。以國家微生物科學數據中心為例,已經彙聚全球50多個國家資源,也是國際微生物數據中心,主導研發國際标準有效提升數據質量、加工數據産品。在國家标準層面,設有全國科技平台标準化技術委員會,專業研發科技資源開放共享方面的國家标準,下設科學數據專家組,20個國家科學數據中心均有代表參與,推進科學數據标準研制、應用。

國家科學數據中心充分利用信息技術研發特色數據軟件,部署雲端或客戶端,通過軟件固化數據質量方法、數據質量标準,全程質保數據采集加工、融合、分析挖掘和應用,促進數據的優質高效利用。如此,越來越多的科學數據源源不斷從采集端“流到”國家科學數據中心,同時國家科學數據中心還有部分職能是收集、管理和開放國家科技計劃項目彙交的科學數據。

無論是流入的數據還是數據彙交,對質量控制要求更高,建議把數據質量工作前移,以貫徹全生命周期的數據質量觀基礎上把好數據生産關。具體而言,要貫徹全生命周期數據質量觀念,無論ISO9000認證還是軟件領域CMM認證、數據管理能力成熟度評估(DCMM)認證等,都要融入全生命周期和全要素的質量控制觀,借助工業産品質量的理念,融入科學數據全生命周期落實管控,任何可能影響數據質量的因素要通盤考慮納入全生命周期去管控。同時,充分利用信息技術手段,實現數據操作盡量避免人為幹預,有效提升數據質量。在軟件或人為操作數據過程中,建設完備的回溯機制,以保證質量問題發生後能回溯糾偏。

科學數據彙交的文化需要營造

南都:開展科技計劃項目數據彙交管理與共享,對促進科學數據的整合集成,增強國家科技投入的效益,提高我國科技計劃項目管理水平具有重要意義。當前科學數據彙交情況如何?最大難點在哪裡,如何解決?

胡良霖:當前科學數據彙交處于試點階段,《科學數據管理辦法》明确國家科技計劃(專項、基金等)項目科學數據彙交制度及相關要求。2018年,科技部印發《國家重點研發計劃項目綜合績效評價工作規範(試行)》,明确提出“需要彙交的數據”在綜合績效評價時“應提交由有關方面認可的科學數據中心出具的彙交憑證”。目前,國家重點研發計劃項目科學數據彙交進展良好,據我所知目前沒有發生因為科學數據彙交工作影響國家重點研發計劃項目綜合績效評價的案例。

試點工作困難很多,我覺得主要包括幾個方面:

一是營造數據彙交文化。科學數據彙推行兩年多時間,仍有很多項目是首次開展科學數據彙交,不乏有抵觸情緒,認為不僅交出數據,而且額外增加工作量。因此,需要全社會營造數據彙交文化,普及數據彙交知識,各級各類科技計劃項目在立項階段就要做好科學數據彙交計劃。對很多地方機構而言,可能先要解決承接科學數據彙交工作的科學數據中心建設,建議各地結合實際引進國家科學數據中心服務本地工作。

二是數據質量問題。一個項目彙交數據超過10TB,專家評審就很困難,建議數據質量管控融入數據生産全生命周期,由數據提交人長期負責。科學數據彙交是把科學數據作為科研活動成果,提交到國家科學數據中心進行發布應用,類似于文章發表,作者在期刊發表文章後,如有問題需要終生負責。數據彙交也類似,彙交到國家科學數據中心的數據發布之後,用戶發現質量問題,應追責到原始提供方。

三是經費使用問題。數據彙交是新業務,面向數據彙交開展數據加工整合需要相應經費支持,特别是很多項目需要重新投入資金與精力開展。但目前國家科技計劃項目經費管理體系沒有數據彙交科目,2022年6月,中國注冊會計師協會修訂印發《中央财政科技計劃項目(課題)結題審計指引》沒有在相應科目中提到“科學數據”,科學數據彙交相關經費納入課題預算,沒有政策制度依據。缺少相應經費,對工作開展不利,更不利于科學數據彙交業務常态化,建議有條件地推動經費管理試點改革,在經費科目設置、預算方面加大對科學數據工作全面支持,對承接科學數據彙交工作的科學數據中心按照彙交業務數量給予經費補貼。

四是彙交數據再利用問題。利用已彙交到國家科學數據中心的數據,需要培養社會各方使用習慣。國家基礎數據中心今年推出三項舉措推進彙交數據的利用:年初發起首屆優秀學術成果評選活動正式啟動,各界利用我們中心數據産出的成果都可以來參評;7月份數據應用創新課題征選,通過自主申報、專家評審,遴選出納米科技、新能源汽車兩個方向,基于彙交科學數據開展深度研究;依托廣州物聯網研究院把廣東省科研機構彙交的數據帶回廣東、服務廣東,據不完全統計,目前已有50多項廣東省科研機構、高等院校和科技公司牽頭的重點研發計劃項目已經彙交到我們中心,近期将聯合廣州物聯網研究院探索優先服務廣東本地乃至粵港澳大灣區的新模式。

建議社會各界做工作需要使用數據的時候,先去國家科學數據中心網站看看有沒有直接可用的數據。隻有用起來,才能實現彙交數據的價值,實現數據驅動創新、數據可持續發展的目标。

建議盡快制定科學數據核心清單等

南都:《科學數據安全标準體系》《科學數據安全管理指南》等标準正在研制,我們需要如何更好構建安全保障體系,确保科學數據安全?

胡良霖:這幾項标準已在國家标準化委員會網公示立項,《科學數據安全标準體系》《科學數據安全管理指南》等是中國科學院計算機網絡信息中心牽頭承擔的國家重點研發計劃項目“科學數據安全技術及基礎技術标準研究”的部分成果,還有一系列團體标準與配套工具軟件。此項目是我國《數據安全法》頒布之前部署的,應該說充分體現我國科學家和科技部項目管理機構的前瞻布局。《數據安全法》實施後,科學數據安全受到各方高度關注,上述标準呼應部分法規内容進行了明确,更多細化性可執行政策文件正在研制中。

構建數據安全保障體系,确保科學數據安全,我認為要在全面貫徹落實國家網絡安全、數據安全、個人信息保護等系列法規的基礎上,結合各學科領域特點、數據資源特點研制更明确、更具實操性的指導文件,輔以軟硬件基礎設施的全面提升,實現科學數據的安全防護,在确保科學數據安全的前提下落實《科學數據管理辦法》提出的“開放為常态、不開放為例外”的原則。

科學數據安全最大的挑戰在于平衡與開放共享的關系,以及互聯網環境下國内開放與國際開放的關系。《數據安全法》等系列文件明确了重要數據、核心數據、出境數據等宏觀的要求,但科學數據涉及學科領域廣泛、類型複雜多樣,目前看很難平衡宏觀原則和實操指導方面的矛盾。建議盡快制定科學數據核心數據清單、重要數據清單、出境數據清單,清單明确的數據嚴格按照相應的政策去管控,清單外的數據應大力推進開放共享。當然,清單需要每年更新,必要時實時更新,以保證數據安全。也就是說,應該保護的數據應明确保護到位,可開放的數據大膽開放,充分利用科學數據驅動國家創新發展,國際上樹立新形象,引領新時期後疫情時代的國際合作。

數據科學與智慧軟件省重點實驗室(國家基礎數據中心胡良霖)1

個人簡介

胡良霖,中國科學院計算機網絡信息中心大數據部副主任、教授級高工,國家基礎學科公共科學數據中心主任,廣州物聯網研究院副院長,國際科學理事會數據委員會(ISC-CODATA)中國全國委員會秘書長,全國科技平台标準化技術委員會(TC486)委員兼科學數據專家組副組長,全國信息技術标準化技術委員會(TC28)大數據标準工作組成員,廣東省計算機學會大數據專業委員會委員,廣東省物聯網協會團體标準技術委員會專家。長期從事科學數據管理與開放共享、應用服務的研究和實踐,主要研究方向為科學大數據、數據關聯網絡、數據質量與大數據治理、科學數據安全與倫理、數據要素化演進等方面的研究。

出品:南都大數據研究院 數字政府研究中心

統籌:鄒瑩 研究員:袁炯賢 設計:劉寅杉

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved