tft每日頭條

 > 生活

 > 誇克ai雲筆記怎麼使用

誇克ai雲筆記怎麼使用

生活 更新时间:2024-07-28 16:08:10

機器之心報道

機器之心編輯部

首屆國際學習與推理聯合大會(IJCLR)已于 10 月 25-27 日在線上舉行,該會議代表了國際推理與學習相融合方面的重大趨勢,多位國内外領域學者發表演講,其中,周志華教授作了大會的開場主旨報告,分享了題為《利用無标簽數據:從「純學習」到「學習 推理」》的主旨演講。

學習和推理一直是人工智能中的核心研究内容,諸多學者都認為,兩者的結合将具有解決當代人工智能方法缺點的潛力,包括深度學習的黑箱性質等,然而這方面的工作極為困難,需要将人工智能中邏輯推理、知識表示、機器學習等多個領域打通。

人工智能領域的大會可以說是不勝枚舉,但還沒有專門關注學習與推理結合的重量級會議。現在終于有這樣一個會議,可以滿足研究者這方面的需求——國際學習與推理聯合大會(International Joint Conference on Learning & Reasoning,IJCLR)。

首屆國際學習與推理聯合大會已于 10 月 25-27 日在線上舉行。該會議代表了國際推理與學習相融合方面的重大趨勢,可以說是 2021 年國際人工智能界的一件大事。

該會議由四個有十年、甚至三十年曆史的會議聯合形成:第 30 屆國際歸納邏輯程序設計大會 (ILP20-21)、第 15 屆國際神經符号學習與推理研讨會(NeSy20-21)、第 10 屆國際統計關系人工智能研讨會(StarAI 20-21)、第 10 屆國際歸納程序方法及應用研讨會(AAIP 20-21)。這意味着國際人工智能領域關于「學習 推理」 的幾個研究社區終于整合到了一起,攜手探索「學習 推理」 的未來。

誇克ai雲筆記怎麼使用(周志華發表首屆IJCLR開場Keynote)1

IJCLR 大會主頁:http://lr2020.iit.demokritos.gr/index.html

IJCLR 旨在将從事學習和推理各個方面的研究人員和從業者聚集在一起,探讨未來發展和挑戰,促進不同方法之間的協作和交叉融合:ILP 大會一直是基于邏輯學習方法研究的首要論壇,最初該會議專注于邏輯程序歸納,多年來已将其研究範圍擴展到其他形式的關系學習和概率方法;NeSy 是展示和讨論與神經符号計算相關的系列研讨會,例如神經和基于邏輯的學習和推理方法的組合;StarAI 研讨會系列主要是研究邏輯與概率論組合,重點是統計推理和學習關系以及一階邏輯表示;AAIP 研讨會系列側重于從不完整的規範中學習任意編程語言的可執行程序。

本次大會邀請了多位領域大咖發表演講。其中,我國南京大學計算機系主任兼人工智能學院院長周志華教授作了大會的開場主旨報告,分享了題為《利用無标簽數據:從 「純學習」 到「學習 推理」》的主旨演講

誇克ai雲筆記怎麼使用(周志華發表首屆IJCLR開場Keynote)2

在會議最後的 Panel 環節,周志華教授還與流形學習與貝葉斯程序學習創始人、MIT 腦與認知科學系教授 Josh Tenenbaum, Robust.AI 創始人、認知科學專家 Gary Marcus,缺省推理創始人、瑞典林雪平大學知識表示與推理教授 Hector Geffner,英國皇家工程院交互可解釋人工智能研究主席、帝國理工教授 Francesca Toni,曾擔任國際人工智能聯合會主席和《人工智能研究雜志》主編的 IBM Fellow Francesca Rossi 等五位大咖共同讨論了《學習和推理的未來挑戰》。這意味着我國學者在機器學習與邏輯推理融合方面已經達到了國際同行公認的引領性和前瞻性,能與國際頂尖專家平等對話讨論整個領域的未來。

在本次大會的開場主旨報告演講中,周志華教授先簡要介紹了機器學習中利用無标簽數據的重要性,以及過去利用無标簽數據主要依賴的「純學習」解決方案,然後重點介紹了他最近提出的「反繹學習」。這是一種全新的「學習 推理」方案,與以往的「學習 推理」方案重點依賴學習、獲得的結果犧牲了推理能力,或重點依賴推理、獲得的結果犧牲了學習能力不同,反繹學習提供了一種以平衡和互利方式利用機器學習和邏輯推理的「學習 推理」解決方案。通過邏輯推理對領域知識進行利用,從而可以顯著緩解對有标簽數據的需求;而通過機器學習可以利用數據對領域知識進行精化和改善,甚至可能發現新知識。

以下為機器之心根據周志華教授的現場演講内容進行的整理。

周志華教授演講内容概要

自訓練方法(Self-training)

機器學習通常依賴大量的有标簽數據,而現實中很容易獲得大量無标簽數據,如何利用無标簽數據輔助少量有标簽數據進行學習,是一個重大挑戰問題。很容易想到的辦法有自訓練 / 自學習,用有标簽數據訓練一個模型,然後用模型來對無标簽數據提供僞标簽,然後基于僞标簽數據來更新模型。但這樣做不太“靠譜”,因為當初始有标簽數據很少時,訓練出的初始模型性能差,僞标簽中會有大量錯誤,導緻學習性能越來越差。

誇克ai雲筆記怎麼使用(周志華發表首屆IJCLR開場Keynote)3

這樣的做法在很久以前就有所改進,例如對僞标簽數據進行數據編輯,對數據淨化之後再用于學習。編輯過程可以采用一些統計假設檢驗方法。然而總體上這樣的方法仍然是啟發式的,人們希望有一些有理論支撐的方法。

誇克ai雲筆記怎麼使用(周志華發表首屆IJCLR開場Keynote)4

主動學習(Active learning)

主動學習(Active learning)是機器學習的一個分支,其主要思路是,從大量無标簽樣本中挑選少量樣本給人類專家進行标注,從而讓人類專家的力氣用在 「最有價值」的地方。其目标是通過盡量少地選擇樣本給人類專家标注,能夠大幅度提升學習性能。

誇克ai雲筆記怎麼使用(周志華發表首屆IJCLR開場Keynote)5

典型的兩大類代表性方法是有選擇最 informative 的示例進行标注,和選擇最有代表性的示例進行标注。新的發展是同時兼顧 informative 和代表性。

誇克ai雲筆記怎麼使用(周志華發表首屆IJCLR開場Keynote)6

然而,主動學習假設了「人在環中」(human-in-the-loop),如果沒有人類專家的幫助,則必須考慮其他的辦法來利用無标簽數據,例如半監督學習。

半監督學習

半監督學習具有代表性的方法包括生成式方法、半監督 SVM、基于圖的方法、基于分歧的方法。

誇克ai雲筆記怎麼使用(周志華發表首屆IJCLR開場Keynote)7

基于分歧的半監督學習是該領域的主流範型之一, 通過訓練多個學習器,利用它們之間的分歧來對無标簽數據進行利用。協同訓練(Co-training)是基于分歧方法的代表,它最初是針對 「多視圖」 數據提出,多視圖數據是指一個樣本同時由多個屬性集合描述,每個屬性集合稱為一個「視圖」。協同訓練首先基于兩個視圖分别訓練一個分類器,然後每個分類器挑選一些可信度高的無标簽樣本,标注後提供給另一個分類器作為有标簽數據進行使用。由于這些分類器從不同角度訓練出來,可以形成一種互補,從而提高分類精度;就如同從不同角度可以更好地理解事物一樣。

誇克ai雲筆記怎麼使用(周志華發表首屆IJCLR開場Keynote)8

這個簡單的算法被廣泛應用,在應用中有令人驚訝的優越性能。研究者們努力理解它為什麼有效、在什麼時候有效。機器學習領域奠基人、CMU 的 Tom Mitchell 教授等人證明,如果數據具有兩個滿足條件獨立性的視圖、且每個視圖都包含足夠産生最優學習器的信息,則協同訓練能夠通過利用無标簽數據任意提升弱學習器的性能。

然而這個理論條件在現實中并不成立,因為關聯到同一個樣本的兩個視圖通常并不滿足條件獨立性。此後有許多著名學者,如計算學習理論大會主席 Balcan 等人做了重要工作,最後周志華教授課題組在理論上最終給出了協同訓練能夠奏效的充分條件和充分必要條件。其理論揭示出隻要兩個學習器有較大差異,就能通過協同訓練利用無标簽數據提升性能。該理論說明,「兩個視圖」并非必須,隻要想辦法讓學習器之間具有較大差異即可。

該理論結果導緻了一系列 「單視圖方法」,例如 tri-training 方法等,最近在深度學習領域也有基于 tri-training 的半監督深度神經網絡模型。

誇克ai雲筆記怎麼使用(周志華發表首屆IJCLR開場Keynote)9

然而,半監督學習仍然需要一批有标簽數據,例如在半監督 SVM 或基于分歧的方法中訓練初始分類器。如果既沒有 「人在環中」 的人類專家幫助、也沒有充分的有标簽數據,還有沒有辦法利用無标簽數據呢?周志華課題組提出,如果有「領域知識」,那麼可以通過機器學習和邏輯推理的結合來做。

機器學習和邏輯推理

邏輯推理容易利用規則知識,機器學習容易利用數據事實,從人類決策來看,通常需要結合知識和事實以解決問題。研究一個能夠融合機器學習和邏輯推理并使其協同工作的統一框架,被視為人工智能界的聖杯挑戰。

在人工智能研究的曆史中,機器學習和邏輯推理兩者基本是獨立發展起來的,1956~1990 年是邏輯推理 知識工程作為人工智能主流的發展時期,但此時關心機器學習的人很少;1990 年之後是機器學習作為人工智能主流的發展時期,但此時邏輯推理已經相對冷門。

誇克ai雲筆記怎麼使用(周志華發表首屆IJCLR開場Keynote)10

目前流行的邏輯推理技術通常基于一階邏輯表示,而流行的機器學習一般基于特征表示。這兩者幾乎是基于完全不同的表示方式,難以相互轉化,使得兩者的結合極為困難。

誇克ai雲筆記怎麼使用(周志華發表首屆IJCLR開場Keynote)11

為了融合機器學習和邏輯推理,曆史上已經有很多研究者在做努力。他們通常采用擴展其中一種技術來适應另一種技術的方法。例如,概率邏輯程序(PLP)嘗試擴展一階邏輯以引入概率推理。而統計關系學習(SRL)基于領域知識構建、初始化概率模型。

誇克ai雲筆記怎麼使用(周志華發表首屆IJCLR開場Keynote)12

前者「重推理、輕學習」,開頭引進了一點機器學習的成分,然後幾乎完全依賴邏輯推理解決問題;後者「重學習、輕推理」,開頭引進了一點邏輯推理的成分,然後幾乎完全依賴機器學習解決問題。總是「一頭重、一頭輕」,意味着總有一端的能力沒有完全發揮出來。

這就面臨一個問題,能不能有一個新的機制幫助我們把這兩大類技術的優勢都充分地發揮起來、相對均衡地「互利式地」結合邏輯推理和機器學習呢?反繹學習的提出就是為了解決這個問題。

反繹學習(abductive learning)

反繹學習,是一種将機器學習和邏輯推理聯系起來的新框架。在理解反繹學習之前,我們先來理解這個反繹的含義。

在人類對現實問題的分析抽象上,通常有兩種典型方法論:演繹,從一個普遍的規則開始,到一個有保證的特定結論,這就是一個從一般到特殊的過程;歸納,從一些特定事實開始,然後我們從特定的事實中總結出一般的規律,這就是從特殊到一般。定理證明可以說是演繹的典型代表,而機器學習是歸納的典型代表。反繹則與兩者有所區别,其标準定義是首先從一個不完備的觀察出發,然後希望得到一個關于某一個我們特别關心的集合的最可能的解釋。

周志華說他提出的反繹學習可大緻理解為将演繹過程反過來嵌入到歸納過程中去,所以他提出 「反繹」 這個中文名字,而不是直接翻譯為 「誘導」或「溯因」。

誇克ai雲筆記怎麼使用(周志華發表首屆IJCLR開場Keynote)13

現在返回來看傳統的監督學習。監督學習首先需要有很多示例以及标簽,将它們結合起來進行監督學習,訓練出一個分類器。

誇克ai雲筆記怎麼使用(周志華發表首屆IJCLR開場Keynote)14

反繹學習的設置不太一樣,反繹學習中假設有一個知識庫,以及一個初始分類器。

在這個學習中,我們先把所有的數據提供給這個初始分類器,初始分類器猜測一個結果,得到結果之後就會把它轉化成一個知識推理系統能夠接受的符号表示。

那麼接下來這一步,我們就要根據知識庫裡面的知識來發現有沒有什麼東西是不一緻的?如果有不一緻,我們能不能找到某一個東西,一旦修改之後它就能變成一緻?或者修改之後使得不一緻程度大幅度降低?這就需要我們去找最小的不一緻。如下圖所示:假設我們現在找到,隻要把這個非 C 改成 C,那麼你得到的事實就和知識都一緻了。我們就把它改過來,這就是紅色的這個部分,這就是一個反繹的結果。而反繹出來的這個 C,我們現在會回到原來的标簽中,把标簽改掉,接下來我們就用修改過的标簽和原來的數據一起來訓練一個新分類器。這個分類器可以代替掉舊的分類器。這個過程可以不斷地疊代下去。這個過程一直到分類器不發生變化,或者我們得到的僞事實和知識庫完全一緻,這時候就停止了。

誇克ai雲筆記怎麼使用(周志華發表首屆IJCLR開場Keynote)15

從上圖可以看到,左半部在進行機器學習,而右半部在進行邏輯推理。機器學習和邏輯推理這兩者互相依賴,循環處理往複,直到分類器與知識庫一緻(此時相當于分類器已經 「學到」了知識庫中的内容)或者分類器連續數輪不再提升;如果允許對知識庫進行修改,還可以使得知識庫中的内容可以被精化或更新(這是利用數據經驗來改善知識的過程)。

反繹學習不依賴于真實标簽,但如果存在有标簽數據,它也可以充分利用,例如可以生成更可靠的僞标簽等,從這個意義上說,反繹學習可以被視為一種更具一般性的弱監督學習,其監督信息不僅限于标簽,還可以是領域知識。

初始分類器可以是預訓練好的深度模型或者遷移學習模型,甚至可以很簡單,例如基于聚類或最近鄰分類的預處理;其基本作用是讓整個過程 「啟動」 起來。在領域知識豐富可靠時,通過知識的利用可以使得整個過程并不依賴于初始分類器的強度。

知識庫目前仍需要人工總結人類經驗并寫成一階邏輯規則。今後可能通過學習來對知識庫進行改善和提煉。對數據事實與符号知識的聯合優化不再能依靠常規的梯度方法,使用了周教授團隊自己開發的不依賴梯度計算的零階優化方法。

周教授還簡要介紹了反繹學習應用于司法案件輔助量刑的初步情況。

誇克ai雲筆記怎麼使用(周志華發表首屆IJCLR開場Keynote)16

最後,如果将反繹學習示意圖旋轉一下,上半部是邏輯推理對應了認知過程,下半部是機器學習對應了感知過程,則反繹學習也為探索認知和感知交互提供了一個框架。

想要了解更多關于「學習 推理」内容的你,不妨深入了解一下這個大會,相信你能從中收獲滿滿。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved