ai圖像檢測?研究人員們驚訝地發現,深度學習視覺算法之所以經常在圖像分類時遭遇挑戰,是因為它們主要從紋理——而非形狀——當中提取判斷線索,現在小編就來說說關于ai圖像檢測?下面内容希望能幫助到你,我們來一起看看吧!
研究人員們驚訝地發現,深度學習視覺算法之所以經常在圖像分類時遭遇挑戰,是因為它們主要從紋理——而非形狀——當中提取判斷線索。
在我們觀察一張貓的照片時,往往能夠很快認出這是橘貓還是虎斑貓——此外,圖像是不是黑白、是否存在斑點、是否存在磨損以及褪色等等,也都是觀察過程中能夠輕松得到的結論。此外,我們還會發現這些小生靈是蜷縮在枕頭後邊,還是迅捷地躍上一張台面。總而言之,人類總能不知不覺快速學會識别小貓。相比之下,由深度神經網絡驅動的機器視覺系統雖然能夠在某些特定情況下提供優于人類的識别能力,但一旦構圖較為罕見、存在噪點或者其它一些幹擾因素,系統也有可能對一張内容明确的圖像束手無策。
最近德國一支研究小組發現了當中令人意想不到的原因:人類對圖像裡各對象的形狀較為敏感,而深度學習計算機視覺算法卻通常更關注對象的紋理。
這一發現發表在今年5月舉辦的國際學習代表大會上,主要強調了人與機器在“思考”方式之間的鮮明差異,并闡述了我們的直覺如何誤導人工智能。此外,這項研究也暗示了,人類的視覺為何會發展成今天的形式。
擁有大象皮膚的小貓與由鐘表構成的飛機
舉例來說,深度學習算法體現為一套神經網絡,其中包含着成千上萬張有貓或者無貓的圖像素材。系統能夠從這些數據當中找到模式,而後利用它來決定如何更好地标記自己從未見過的圖像。網絡的架構類似于人類視覺系統,但建模方式更為松散——這是因為,其中的連接層允許網絡一步步從圖像中提取出越來越抽象的特征。然而,這套系統實際上是一種“暗箱”流程,我們隻能獲得正确答案,卻不知道這答案從何而來。并未參與此項研究的俄勒岡州立大學計算機科學家Thomas Dietterich指出,“我們一直在努力找到使得深度學習計算機視覺算法得出正确結果的原因,以及哪些因素有可能幹擾這種視覺識别能力。”
為了達成這一目标,有些研究人員開始探索,在對圖像内容進行修改之後,網絡會因欺騙而得出怎樣的結論。他們發現,某些非常小的變化都有可能導緻系統完全錯誤地标記圖像中的對象——但有些很大的變化,卻反而不會讓系統修改其标記内容。與此同時,也有其他一些專家通過網絡進行了回溯,分析了其中單一“神經元”在圖像中的響應,并據此為系統學習到的特征生成所謂“激活圖集”。
其中計算神經科學家Matthias Bethge實驗室的一組科學家,以及來自德國蒂賓根大學的心理物理學家Felix Wichmann采取了更為定性的方法。去年,該團隊報告稱,當他們在利用特定噪聲進行幹擾處理的圖像上訓練神經網絡時,結果發現神經網絡在對存在類似失真幹擾的新圖像進行分類方面,表現要優于人類。但隻要對這些圖像稍微進行一些新的模式調整,就能夠完全騙過網絡——即使新的内容扭曲與圖中原本存在的扭曲看起來并無不同。
為了解釋這一結果,研究人員們猜測,也許極低的噪音水平也可能會具有巨大的判定權重。在這方面,紋理似乎是個很不錯的線索。Bethge和Wichmann實驗室研究生,研究論文第一作者Robert Geirhos指出,“如果長時間添加大量噪音,圖像對象的形狀因素其實并不會受到太大的影響。但在另一方面,圖像中的某些局部結構,在添加一丁點噪音因素時也可能變得極度扭曲。”因此,他們提出了一種巧妙的方法,以測試人類與深度學習系統究竟是如何處理圖像的。
Geirhos、Bethge和他們的同事創造出兩幅包含相互沖突線索的圖像,即對象的形狀取自某一物體,紋理則取自另一個物體。例如,用帶裂紋的灰色紋理(大象皮膚)填充在貓的輪廓當中;或者制作小熊紋理的鋁罐,乃至由鐘面堆疊而成的飛機圖形等。利用數百張此類圖像,人類仍能夠根據圖像中的形狀——貓、熊、飛機等——以極高的準确度進行标記。相比之下,四種不同的分類算法則傾向于另一種理解方式,即給出能夠反映物體紋理的标記,包括大象、罐頭、時鐘等。
并未參與此項研究的哥倫比亞大學計算神經科學家Nikolaus Kriegeskorte指出,“這正在改變我們對深度前饋神經網絡能夠實現視覺識别能力、及其訓練過程的理解方式。”
奇怪的是,人工智能采取的紋理大于形狀的理解方式,似乎很有那麼點現實意義。Kriegeskorte表示,“我們其實可以把紋理看成是一種更精細的形狀。”神經系統能夠更輕松地鎖定高精度形狀比例:具有紋理信息的像素數,要遠遠超過構成對象邊界的像素數,而神經網絡的第一步就是檢測線條與邊緣等局部特征。并未參與此項研究的多倫多約克大學計算視覺科學家John Tsotsos指出,“這就是紋理。所有的線段組都以相同的方式進行排列。”
Geirhos和他的同事已經證明,這些局部特征已經足以幫助神經網絡完成圖像分類任務。事實上,Bethge和該研究的另一位作者,博士後研究員Wieland Brendel在今年5月的大會上也通過一篇論文提到了這一點。在這次工作當中,他們構建起一套深度學習系統,但具體運行方式卻與深度學習技術出現之前的分類算法非常相似——這更像是一種“特征包”。它最初會将圖像分割成衆多微小的塊(類似于目前的Geirhos等現有模型),但接下來它并不像其它模型那樣逐步整合信息并提取高級特征,而是立即識别出每個小塊中的圖像内容(「這個塊中包含自行車的因素,另一塊當中包含鳥的因素」等)。它會将這些決策結果疊加在一起以确定對象的實際内容(「如果包含自行車因素的小塊更多,那麼圖像展示的就是自行車」),而完全不考慮不同圖塊之間的全局空間關系。但就是這種“笨辦法”,卻能夠以驚人的準确度識别物體對象。
Brendel表示,“這一發現挑戰了此前人們所認定的,深度學習技術與原有模型完全不同的假設。很明顯……深度學習仍然代表着一種飛躍,隻是不像有些人所希望的那麼天翻地覆。”
根據約克大學與多倫多大學博士後研究員Amir Rosenfeld的觀點(并未參與此項研究),“我們理解中的神經網絡運作方式,與其實際運作方式之間仍然存在着「巨大的差異」”,其中也包括神經網絡對人類行為的複制效果。
Brendel也表達出類似的觀點,他表示人們很容易假設神經網絡能夠像人類一樣解決任務,“但我們也忘了、或者說是在刻意忽略其中還存在着别的可能。”
一種更接近人類的觀察方法
目前的深度學習方法可以将紋理等局部特征整合至更多全局模式當中。Kriegeskorte指出,例如在談到形狀時,“論文當中提出了令人驚訝、但又非常引人注目的證明,即雖然架構能夠關注形狀,但如果僅僅進行訓練(對标準圖像進行分類),那麼神經網絡不會自動提出形狀這一概念。”
Geirhos希望看到當團隊強迫這些神經模型忽略紋理因素時,會發生怎樣的結果。該團隊采用傳統上用于訓練分類算法的圖像,并以不同的樣式對圖像加以“繪制”,從而在根本上剝離出有用的紋理信息。當他們在新圖像上重新訓練每套深度學習模型時,這些系統開始逐步關注更大、更為全局的模式,同時也表現出更類似于人類的形狀偏好。
在采取這種方式時,算法能夠更好地分辨包含噪音幹擾的圖像,甚至無需訓練即可識别出其中的内容。Geirhos表示,“基于形狀的網絡能夠提供更強大的識别功能。這讓我們意識到,對于特定任務,其實是存在「正确的偏見」這一概念的。以我們的研究為例,形狀偏見能夠把視覺識别算法推廣到更多新穎的場景當中。”
研究還暗示,人類有可能也會自然地産生這種偏見;因為對于前所未有或者幹擾因素較多的情況,形狀是一種更為健壯的指标,能夠幫助我們更好地定義自己看到的内容。人類生活在一個三維世界當中,很多物體在不同條件、不同角度之下都會呈現出不同的狀态。而我們的其它感官,例如觸覺,可以根據需要完善物體識别能力。因此,我們的固有思維就認定形狀優先于紋理。(此外,也有一些心理學家提出,語言、學習與人類形狀偏見之間的聯系;當幼兒接受訓練時,他們可以專門學習某些特定類别的單詞以更多關注形狀因素。如此一來,他們在後續掌握名詞或物體相關詞彙時,往往會表現出較超未訓練孩子的學習能力。)
Wichamnn表示,這項工作提醒人們“數據會産生遠超我們認知的偏見與影響。”這已經不是研究人員們第一次面對這個難題:人臉識别程序、自動招聘算法以及其它神經網絡,此前都已經被證明會過度重視某些出人意料的特征。這是因為這些神經網絡所使用的訓練數據之内,已經存在着根深蒂固的偏見。事實證明,從決策過程當中消除這些不必要的偏見往往非常困難,但Wichmann認為此次新研究展示出新的可能性,也讓他對此充滿信心。
然而,以便Geirhos的模型已經開始關注形狀這一因素,也有可能被圖像當中的大量噪音或特定像素變化所幹擾——這表明其距離還原人類視覺能力還有很長的道路要走。(同樣的,Tsosenos實驗室研究生Rosenfeld、Tsotsos以及Markus Solbach最近也發表了研究報告,認為機器學習算法無法像人類那樣感知不同圖像之間的相似性。)不過Krigeskorte指出,“通過此項研究,我們終于開始觸及一個實質性問題——計算機視覺識别算法并沒能把握住人類大腦當中的某些重要機制。”而在Wichmann看來,“在某些情況下,關注數據集可能更為重要。”
多倫多大學計算機科學家Sanja Fidler(并未參與此項研究)也對這一觀點表示贊同。她解釋稱,“具體結果,取決于我們能否設計出聰明的數據與聰明的任務。”她和她的同事目前正在研究如何為神經網絡提供輔助,以幫助網絡提取出最重要的特征。受到Geirhos調查結果的啟發,他們最近訓練出一種圖像分類算法,其不僅能夠識别出物體本身,同時也可以判斷哪些像素屬于其輪廓或者形狀的組成部分。該網絡在常規對象識别任務中能夠自動提升判斷水平。Fidler指出,“隻要完成了一項任務,我們就會自然地在關注當中帶有選擇性,同時忽略掉其它很多不同的因素。但如果面對多個任務,我們可能會發現更多影響要素。這些算法也是如此。”算法在解決各種任務的過程中會“對不同的信息産生偏見”,這與Geirhos在形狀與紋理實驗中的發現高度契合。
Dietterich總結稱,所有這些研究都代表着“在深入了解深度學習中具體步驟與内容方面,一個個令人興奮的階段。這也許将幫助我們克服一系列當下困擾着我們的局限。因此,我非常贊賞此次發布的一系列論文。”
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!