編輯:好困
【新智元導讀】最近,周志華教授和業内多位不同領域的知名學者共同提出了「反繹學習」(abductive learning)範式、流數據在線學習動态遺憾率的最優下界等多個原創理論。并圍繞可塑模型學習、可視數據表達和可用知識處理3個關鍵科學問題,詳細論述了在大數據分析方面取得的最新研究進展。大數據是推動創新型國家建設的重要戰略資源,大數據對經濟發展、社會治理、國家管理、人民生活都産生了重大影響。
然而,目前出版的關于大數據分析的圖書大都是基于科普和基礎理論的論述,沒有涉及核心技術方法和應用平台。
由人工智能重要頂尖級學者周志華教授領銜,張敏靈、巫英才、瞿裕忠、姜育剛等業内知名學者共同編寫《大數據分析研究進展》。
該書依托國家重點研發計劃項目「大數據分析的基礎理論和技術方法」的研究成果,論述作者在大數據分析的基礎理論與技術方法方面的部分代表工作和取得的最新研究進展。
主要包括:大數據機器學習理論與方法,大數據可視分析理論與方法,多源不确定數據挖掘方法與技術,自動深層化知識處理方法與技術,大數據分析平台、标準與應用示範等方面内容。
秉承科學嚴謹、專業權威的圖書編寫理念,不同領域的内容均由該領域知名學者撰寫。該書為機器學習、可視分析、知識處理、數據挖掘及相關領域的研究人員提供有益參考。
大數據分析首先給出大數據分析框架(圖1),從機器學習、可視分析、知識處理、數據挖掘四個關鍵内容詳細論述大數據分析的基礎理論與技術方法。
其中,機器學習和可視分析協同支撐,為數據挖掘和知識處理提供必要的支撐技術;數據挖掘和知識處理互促利用。四個方面的技術結合起來,共同加以應用,得到數據價值。
圖1 大數據分析框架
作者在對整個大數據分析框架梳理後,經過長時間的思考,凝練出三個關鍵的科學問題:可塑模型學習、可視數據表達和可用知識處理。針對這三個科學問題,梳理出大數據分析研究思路和研究内容(圖2)。
首先,整個任務包含數據層、知識層和價值層。數據層主要通過機器學習和可視分析支撐原始數據到知識信息的有效凝練,随後知識層通過利用知識處理和數據挖掘來實現領域知識到核心價值的有效轉化。從環境、模型、任務三者的角度,大數據環境提供了一個内因驅動,現實任務提供了一個外需牽引,内外相結合确定最終需要得到的分析模型。
圖2 大數據研究思路
本書圍繞上述科學問題詳細論述在大數據分析的基礎理論與技術方法取得的最新研究進展:
在範式方面,提出「反繹學習」(abductive learning)範式(圖3),突破了「重推理輕學習」或「輕推理重學習」既有框架,使機器學習與知識推理能夠循環互促,其性能優于深度神經網絡,甚至超過了人類平均能力。
圖3 反繹學習示意圖
在理論方面,詳細闡述了流數據在線學習動态遺憾率的最優下界,建立了面向增強現實可視表達的虛實融合關系理論,發展了面向非獨立同分布噪聲的自适應誤差建模理論、計算資源受約束條件下具備常數級叠代複雜度和線性收斂的随機優化理論。
在方法方面,詳細闡述了滿足最優遺憾下界的在線學習方法、促進大數據沉浸式展現的渲染繪制與直觀可視設計方法(圖4)、基于可視分析的可解釋機器學習,介紹了适用于數據低層表示的在線自适應多度量模型融合方法(圖5)、面向不确定标記信息的主動遷移模型、面向多模态的自動知識表征學習方法(圖6)、基于圖譜存在性約束的複雜問題求解方法。
圖4 沉浸式城市數據可視化模型下VR 與MR 環境
圖5 自适應局部度量提升(LIFT)框架示意圖
圖6 多模态實體對齊(MMEA)模型
在平台系統方面,介紹基于創新的大數據分析理論、方法與技術,助力科學技術研究的開源系統與工具,面向求解實際問題的标準化大數據分析平台以及相關的基準測試,形成了《信息技術 大數據 大數據系統基本要求》(GB/T 38664-2020)多項國家标準;針對特定行業與社會治理,構建效力社會經濟發展的應用示範系統,具體給出兩項應用示範:智慧法院深度知識挖掘及精準分案(圖7);面向公共安全的視頻目标關聯與态勢感知(圖8)。
圖7 基于反繹學習的盜竊案件預測模型框架
圖8 基于背景分割的車輛再識别算法流程
作者簡介周志華,南京大學計算機科學與技術系主任、南京大學計算機軟件新技術國家重點實驗室常務副主任、南京大學人工智能學院院長、機器學習與數據挖掘研究所(LAMDA)所長,校學術委員會委員。
周志華是 ACM、AAAI、AAAS、IEEE 和 IAPR Fellow,研究領域:人工智能、機器學習、數據挖掘。
曾獲國家自然科學二等獎2項、中國計算機學會「王選獎」等。AI領域國際一流期刊和頂級會議發表論文200餘篇,被引用4萬餘次,蟬聯愛思唯爾高被引學者。
張敏靈,東南大學教授,國家傑青。研究領域:機器學習、數據挖掘。
中國人工智能學會機器學習專委會秘書長、中國計算機學會人工智能與模式識别專委會常務委員、江蘇省人工智能學會副理事長、《中國科學:信息科學》青年編委等。獲CCF-IEEE CS青年科學家獎(2016)等。
巫英才,浙江大學、國家級高層次人才,計算機輔助設計與圖形學國家重點實驗室長聘教授。研究領域:信息可視化、可視分析和人機交互。
分别在2009和2014年的可視化頂級權威會議(IEEE VIS)上獲得最佳論文提名。主持科技部重點研發計劃子課題、國家自然科學基金項目和浙江省傑出青年科學項目等科研項目。
瞿裕忠,南京大學計算機軟件新技術國家重點實驗室 教授。中國計算機學會系統軟件專業委員會委員和軟件工程專業委員會委員。研究領域:萬維網科學(Web Science)、語義萬維網(Semantic Web)、計算機軟件方法與技術。
瞿裕忠教授領銜做的語義網搜索系統被列為WCCC推薦的三個語義網搜索系統之一。多次擔任國際語義萬維網會議(ISWC)、歐洲語義萬維網會議或擴展語義萬維網會議(ESWC),以及亞洲語義萬維網會議(ASWC)等會議的程序委員,擔任中國語義萬維網研讨會(CSWS2009)聯合主席。獲 「新世紀優秀人才」、江蘇省「六大人才高峰」和江蘇省科技進步二等獎。
姜育剛,複旦大學計算機科學技術學院院長,教授,教育部長江學者特聘教授,曾入選國家優青、青年長江學者、萬人計劃青年拔尖人才。研究領域:多媒體信息處理、計算機視覺、魯棒可信人工智能,發表論文百餘篇,被引萬餘次。
應用成果多次成功部署在國家關鍵地點的重要任務中。首屆ACM中國新星獎和ACM SIGMM Rising Star Award得主。獲2019年度上海市青年科技傑出貢獻獎、2018年度上海市科技進步一等獎(排名第一)。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!