tft每日頭條

 > 生活

 > 如何實現環境公平

如何實現環境公平

生活 更新时间:2025-02-12 16:43:22

趙辰:

美國Kitware公司高級研發工程師,博士畢業于美國得克薩斯大學達拉斯分校計算機專業。主要研究方向公平性學習在數據發掘,機器學習,深度學習上的研究和應用。在包括KDD,AAAI,WWW,ICDM等會議與期刊上發表過多篇論文,并受邀擔任KDD,AAAI,ICDM,AISTATS等人工智能領域頂級國際會議程序委員和審稿人,并組織和擔任KDD workshop的主持。

公平意識在線學習框架已成為持續終身學習設置的強大工具。學習者的目标是順序地學習新任務,這些新任務随着時間的推移一個接一個地出現,學習者确保新任務在不同的受保護亞種群(如種族和性别)中統計均等。現有方法的一個主要缺點是它們大量使用數據i.i.d的假設,從而為框架提供靜态的遺憾分析。然而,在任務從異構分布中采樣的不斷變化的環境中,低靜态遺憾并不意味着良好的性能。為了解決變化環境下的公平感知在線學習問題,本文首先在強适應的損失後悔中加入長期公平約束,構建了一種新的遺憾度量FairSAR。此外,為了在每一輪中确定一個好的模型參數,我們提出了一種新的自适應公平感知在線元學習算法FairSAOML,該算法在偏差控制和模型精度方面都能夠适應變化的環境。該問題以雙水平凸凹優化的形式表達,分别與模型的精度和公平性相關的原始參數和耦合參數。理論分析給出了損失遺憾和違反累積公平約束的次線性上界。我們在不同的真實數據集上的實驗評估表明,本文所提出的FairSAOML明顯優于其他相關在線學習方法。


Why Fairness in ML is important?

通常我們會看到很多新聞,這些新聞在描述很高科技AI産品時會有一些對于系統的偏見。比如前幾年一條新聞,谷歌照片錯誤的把一些黑人标注成猩猩。

如何實現環境公平(适應環境變化的公平意識在線元學習)1

Motivations – Example 1

再比如說,在預測犯罪數量的模型中會更多的偏向于非洲裔和黑人社區。

如何實現環境公平(适應環境變化的公平意識在線元學習)2

General Model (通用模型)

如何實現環境公平(适應環境變化的公平意識在線元學習)3

這篇文章講到在進行照片分類的時候,這些照片主要是描述男生和女生在做飯的照片,我們要預測的是這些男生女生各自是否分别在cooking。

Unfair Dependency

這些例子都說明在數據中有一些敏感性信息,我們将其叫做sensitive feature,這些信息包括其種族、性别等等。這些信息會影響到預測的結果,這些信息也會對模型産生一些偏差。

如何實現環境公平(适應環境變化的公平意識在線元學習)4

A General Form of Fairness-Aware Problems

在沒有考慮到fairness的時候,我們隻是單獨的最小化loss。當考慮到fairness的時候,我們通常會用一個函數描述年齡、種族這些敏感信息。

我們在不斷最小化loss的時候,同樣也按我們的方式在fair domain中進行。

如何實現環境公平(适應環境變化的公平意識在線元學習)5

Dependence Score Function g(•)

如何實現環境公平(适應環境變化的公平意識在線元學習)6

常見的g(•)包括很多種,其可以粗略的分為Parametric和Non-parametric。我們用Categories of g(•)中的Demographic Parity作為一個例子來描述g(•)可以這樣去演繹。

Linear Relaxation of The Selected

最常見的Demographic Parity可以描述為:假如将group分為兩個種族——黑人和非黑人,男生和女生等等。這樣就可以轉化成兩個種族之間的差,涉及到的indicator function在優化中是一個非凸的function。

如何實現環境公平(适應環境變化的公平意識在線元學習)7

How to Control Bias with Multiple Tasks?

如何實現環境公平(适應環境變化的公平意識在線元學習)8

這篇文章也是在說當你有很多任務的時候,如何學習到一個shared model使得所有的task共享模型,以達到統一的fairness。

Motivation (Meta-Learning, a.k.a. Learning to Learn)

對于傳統型的元學習模型來說,可能更多的是訓練好模型,并泛化到它的task domain上得到結果。

如何實現環境公平(适應環境變化的公平意識在線元學習)9

其中,我們考慮到元學習可能是解決motive task的一個比較好的技術。元學習區别于機器學習模型的點在于可以學一個meta-learner并轉移學到的知識去testing domain上。

或者也可以将meta-learning理解為learning to learn。

Intuitions of Meta Learning

我們可以看到,machine learning其實是可以被看成訓練一個模型參數。當你用一個神經網絡訓練一個模型的時候,更多的是在乎神經網絡模型中的參數是如何訓出來的,後續再運用參數到testing domain上。

如何實現環境公平(适應環境變化的公平意識在線元學習)10

而meta-learing不再是學一個模型的參數了,而是學習算法。這個算法的目的是幫助我們更好的找到模型的參數是什麼。具體到算法來說,這個模型可以是很多含義,甚至被考慮為超參。

An Example Diagram of Meta-Learning

通常來說,meta-learning會把task分為training和testing兩個部分。每個task也會被分為support和query。其實可以簡單的想象為每個task之中還會分為test和training。

如何實現環境公平(适應環境變化的公平意識在線元學習)11

Fairness-Aware Meta-Learning

Meta-learning的工作還有很多,這裡主要介紹了最常用的模型。

如何實現環境公平(适應環境變化的公平意識在線元學習)12

主要來說,我們研究的是一個Bi-Level optimization problem,其存在一個inner-level和outer-level。每一個level都是用來控制fairness level的,一個是從task角度,另一個是從全局角度。

A Brief Introduction to The Working Paradigm of Online Learning

無論如何,目前的工作都是基于off-line learning,off-line learning可以想成所有task是一起給來訓練的,而online learning在生活中則更符合現實。

如何實現環境公平(适應環境變化的公平意識在線元學習)13

Task不是一股腦給的,而是随着時間順序一點一點給的,可以随着時間順序一點點的适應模型。

Fairness-Aware Online Meta-Learning with Multiple Tasks

綜合來說,這種Fairness-Aware Online Meta-Learning有很多task,步驟大緻如下圖所示:

如何實現環境公平(适應環境變化的公平意識在線元學習)14

在時間為t-1時,有這樣一個meta-level模型;當時間為t,即新的任務來到時,采用θt對新的task進行測試,測試結果也會被記錄下來,包括那些loss都會被記錄下來。然後,我們會把新學的task囊括進來之後再去學θt 1這樣一個參數。之後,我們再move到新的循環。

如何在這個過程中學到新的meta-level參數,是一個比較重要的關鍵點。

Two Papers

針對這個問題,我們也針對性的做了一些拓展。

如何實現環境公平(适應環境變化的公平意識在線元學習)15

在今年的研究中,我們主要關注domain generalization的問題,即task可能并不是來自同一個domain。

The Learning Protocol

做一個形象的比喻,這可以看着learner和adversary之間的一個對抗遊戲。

如何實現環境公平(适應環境變化的公平意識在線元學習)16

第一步的時候,learner會用一個算法來選擇θt,adversary把loss function和fairness function傳回給learner,learner會用這些結合θt算出一個loss和notion并move到下一個循環中。

Static Regret in Fairness-Aware Online Meta-Learning

整個的online meta-learning可以被看成在最小化一個regret。

如何實現環境公平(适應環境變化的公平意識在線元學習)17

無論怎樣,上述兩個已知工作最大的假設就是:所有的task來自同一個domain,我們要考慮的就是task domain在某一時間點發生變化的時候,work該怎樣快速适應這個方式。

Adaptive Fairness-Aware Online Meta-Learning for Changing Environments

如何實現環境公平(适應環境變化的公平意識在線元學習)18

我們接下來的工作就是研究在domain發生變化的時候,如何快速适應新的domain?

Recall the Learning Protocol

剛剛也說了,如何研究出這樣一個算法其實是online-learning中比較重要的一步。

如何實現環境公平(适應環境變化的公平意識在線元學習)19

假設我們已經有了這個算法并命名為K,接下來在适應不同domain時就可以将每個task新來時建立的interval統一傳入上圖中灰色最大的方框meta-level parameter。

每個interval t’隻是用了這個時間點t的數據。根據我們之前配置的算法,就能針對每個interval都得到一個meta-level parameter。我們對所有的結果進行加權平均就得到了最後的meta-level parameter。當有θt’時,interval t’ 1也被加入進來。為了能夠更好地适應新的domain,我們通常會讓權重在新的domain上更大,也使得新學的meta-level parameter更偏向于後面的domain。這樣也使得任務更好的去進行适應。

Strongly Adaptive Regret in Fairness-Aware Online Meta-Learning

如何實現環境公平(适應環境變化的公平意識在線元學習)20

剛剛我們也說了,當有很多interval的時候,regret也會在變。針對之前work而言有很多的interval,loss regret也就變成了讓所有interval裡挑出最大的regret進行最小化。對于fairness notion來說,我們對每個interval都計算出一個fairness notion,然後挑出最大的fairness notion進行最小化。

Updating Interval Parameters Leads to High Time Complexity

如何實現環境公平(适應環境變化的公平意識在線元學習)21

這個方法其實還是有一定缺陷的,最大的缺陷在于interval會随着時間的增多而增大,并呈線性增長。其時間複雜度也會很大,針對這個問題也引出了我們的work。

Adaptive Geometric Covering (AGC) Intervals

我們的巧妙設計是為了使其時間複雜度沒有那麼高,而将所有的interval用一個log的方式分為了4個不同set,每個set中的interval長度是一樣的。

如何實現環境公平(适應環境變化的公平意識在線元學習)22

我們粗略的用log對數以2為底,但是其實我們将底換為3或5也是可以的。我們可以算出每個set的固定長度。

Target Set – A Selected Subset of Intervals

每個時間點,我們會取一定的interval set,即target set。其中囊括了所有的interval,但卻是以時間點開頭的。

如何實現環境公平(适應環境變化的公平意識在線元學習)23

The Learning Experts

然後我們構建了一個算法,令每一個interval可以想象成expert的learning process。這個expert process有兩部分,分别是active experts和sleeping experts。但是那些expert是active experts或sleeping experts呢?這是在動态變化的。随着t變化,expert中哪些是active expert是變化的。

如何實現環境公平(适應環境變化的公平意識在線元學習)24

具體來說,當我們拿到一個target set的時候,target set 這些interval裡面對應的expert會被激活。區别于sleeping expert,active experts會主動更新,然後通過learning process更新parameter。我們最終将其進行整合,去學習下一個時間點的meta-level parameter。

Learning with Experts (t=1)

為了區分active experts和sleeping experts,我們在下面舉了一些例子。

如何實現環境公平(适應環境變化的公平意識在線元學習)25

如何實現環境公平(适應環境變化的公平意識在線元學習)26

如何實現環境公平(适應環境變化的公平意識在線元學習)27

在t=1的時候,active experts選擇的是每個set的第一個當作target set。在t=2的時候,我們隻有一個被選入了target set,這樣也就激活了第一個為active experts,剩下的就是sleeping experts。在t=3的時候,以此類推。

Problem Formulation

如何實現環境公平(适應環境變化的公平意識在線元學習)28

Problem Formulation可以分為兩部分,一部分是interval-level parameter updates。這個地方就是簡單用了一步到幾步的更新步驟,也符合memo在offline上的更新方法。

另外,我們對meta-level parameter updates來說分為active experts和sleeping experts。這裡面的weights用p表示,每個expert如何更新就是用新更新的meta-level parameter和task-level parameter之間的差别來更新weight。

Bi-Level Optimization

如何實現環境公平(适應環境變化的公平意識在線元學習)29

接下來的整個優化過程可以被看作是一個Bi-Level Optimization雙層優化。這樣其實也是一種你中有我,我中有你的過程。Interval-level的一個output被當成了meta-level的input,meta-level的output也會被當成interval-level的input,這樣不斷進行叠代更新。

Algorithm Analysis

如何實現環境公平(适應環境變化的公平意識在線元學習)30

對于算法分析,其最主要的目的還是最小化regret。我們列舉了一些不同的算法來應對相同問題在不同場景中的regret分析。如上圖紅框所示,我們的方法被列舉在最後面,其實在loss regret上并沒有很大的提升。我們指出了constraint violation,在這裡也算是一個較大的貢獻。

Experiments

如何實現環境公平(适應環境變化的公平意識在線元學習)31

為了更好的展現實驗結果,我們選擇了兩個case。第一個case是說fairness level從高到低和從低到高能夠使得我們模型更好地适應兩種不同的changing environments。

MovieLens就是一個簡單的datasets,我們為了将其設計成适應我們的主題。我們把它變成了3個不同的copy,不同的copy是不一樣的東西。第二個copy中的explainable features乘以-1,這樣也得以和第一個、第三個加以區分。

繼續我們的實驗,我們考慮了3個evaluation。前兩個是fairness machine learning中最常用的evaluation metrics,同時我們還兼顧到模型的預測準确率。

Key Results

如何實現環境公平(适應環境變化的公平意識在線元學習)32

從實驗結果可以看到,我們針對這3種metrics和datasets。我們考慮到了7個不同的baseline methods。這7個baseline methods可以分為兩類。一類是online learning或changing environments,并沒有考慮到fairness。這也是很多算法常常會忽略的一部分。還有一類本身就是online上針對fairness learning的,但是它們并沒有考慮到changing environments。

通過和這些方法的對比,我們發現我們的方法能夠做到很好的适應環境變化,但是在模型準确率方面并沒有取得最好的效果。這也可能是因為fairness和accuracy因為domain發生變化而無法兼顧而導緻的。

如何實現環境公平(适應環境變化的公平意識在線元學習)33

之後,我們主要研究的是為什麼我們的模型可以很好的adapt。我們發現weights扮演了一個重要的角色,expert的weights在每個domain上都在發生周期性的變化。對于一些比較長的interval,它的expet weights是在不斷增長的,對于模型來說是有一定穩定型的。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved