對于人類而言,最重要的兩種感官應該就是視覺和聽覺了。而在人工智能的發展中,如何讓機器“看懂”和“聽懂”信息,也一直是研究人員們的重點工作方向。
這一期,我就來為同學們講述一下計算機視覺方面的重點知識。
5大常規任務計算機視覺是研究如何讓機器“看”的科學,更進一步的說,就是是指用攝影機和電腦代替人眼對目标進行識别、跟蹤和測量等機器視覺。
計算機視覺中有5項常見任務,分别是圖像分割、物體檢測、物體識别、圖像描述、語義推理。
圖像分割是将圖像分解成若幹特定、具有獨特性質的目标區域。例如用戶輸入左邊這張照片,機器會對其做一些場景語義分割,将照片中的人和摩托車區分開來。
物體檢測是發現目标并确定其位置。其最常見的任務有三類:這張圖片中是否有XX?XX的數量是多少?XX的位置在哪裡?
物體識别是在物體檢測的基礎上,不僅找到物體在哪裡,還能确認它是什麼。物體識别通常由兩類常規任務構成:第一類任務是相似檢索問題,比如搜索引擎中的相同或相似圖像的搜索功能;第二類任務是相似比對問題。
圖像描述即“看圖說話”,由機器來描述照片中的内容。
語義推理是五項任務中最難的一項,即挖掘圖像或視頻内容背後更深遠的故事。以上圖為例,機器根據“鞋子裡的小貓”這張圖像進行背後故事挖掘,猜想小貓是因為好奇所以鑽進鞋子玩耍。
計算機視覺的應用領域計算機視覺在現實中的應用非常廣泛。可以說,機器不僅能幫助人完成許多需要“看”的工作,還能“看見”更多人眼無法辨别的東西。例如以下幾種應用:
指紋及其它生物特征識别
通過計算機利用人體所固有的生理特征(指紋、虹膜、面相、DNA等)或行為特征來進行個人身份鑒定的技術。比如科幻片中經常看到的指紋和虹膜識别,就都是運用了計算機視覺技術。
人臉檢測識别
在往期的AI大學課程中,班主任有跟大家講解過人臉識别的詳細知識點哦(戳這裡回顧)
視頻監控和安防分析
如住宅區分布的智能視頻監控系統、銀行安防系統等,能夠有效地監控、分析現場情況。
醫學生物圖像檢測分析
X線圖像、多排螺旋CT等可獲取人體内部的二維、三維醫學圖像,大大提高了診斷準确性和效率。
除了以上四類應用,計算機視覺在拍照翻譯和圖像搜索方面也被廣泛使用。例如訊飛翻譯2.0就可以通過拍照來識别出文字,同時實現翻譯。
還有文檔分析識别、VR虛拟現實、輔助駕駛領域等等,都是計算機視覺領域的熱點。
近兩年有大量的資本湧入計算機識别領域,比如商湯科技已經融資33億,曠視科技也融了31億。在今年的4月份,商湯科技就宣布完成了6億美元的C輪的融資,再次創下了人工智能單輪融資的記錄。
由此可見,計算機視覺技術應用的發展前景是十分可觀的。
計算機視覺技術的難點與挑戰盡管能力強大且應用廣泛,計算機視覺技術仍然有許多難點尚未找到合适的解決方法,因此可以說是機遇與挑戰并存。
計算機視覺技術的第一大難點是多變和非均勻的光照場景,例如一些逆光的場景。第二個是成像質量差異,比如說不同清晰度的相機拍出來的照片質量不同。第三個是複雜易混淆的背景,比如說雪地裡的一隻白貓。第四點是不同場景存在幹擾和遮擋。
此外還有一些難點,包括失焦、透視變形等等。
卷積神經網絡處理圖像的過程圖像識别最常用的就是卷積神經網絡,而卷積神經網絡主要是模拟人的視覺神經系統提出來的。
以CNN做人臉識别任務為例,先得到一些像素信息,再往上層得到一些邊界信息,然後再往上提取就是一些人臉的部件信息,包括眼睛、耳朵、眉毛嘴巴等,最後是人臉識别,這整個過程和人的視覺神經系統是非常相似的。
卷積神經網絡的結構依舊包括輸入層、隐藏層和輸出層,其中卷積神經網絡的隐含層包含卷積層、池化層和全聯接層3類常見構築,接下來我們着重講解下卷積和池化的相關知識點。
卷積層的功能是對輸入數據進行特征提取,其内部包含多個卷積核,一個卷積核覆蓋的原始圖像的範圍叫做感受野(權值共享)。
一次卷積運算(哪怕是多個卷積核)提取的特征往往是局部的,難以提取出比較全局的特征,因此需要在一層卷積基礎上繼續做卷積計算,這就是多層卷積。
在卷積層進行特征提取後,輸出的特征圖會被傳遞至池化層進行特征選擇和信息過濾。池化層包含預設定的池化函數,其功能是将特征圖中單個點的結果替換為其相鄰區域的特征圖統計量。
通過這種池化的操作,能夠一定程度上克服圖像的一些旋轉和局部的細微變化,從而使得特征的表達更加穩定。
人臉識别人臉識别技術是計算機視覺的一個典型應用,接下來我們就來講解一下人臉識别中的相關知識點。
人臉識别的分類
人臉識别大體上分為靜态人臉識别和動态人臉識别,它們的難度是不同的。靜态的人臉識别,人是非常配合的,難度小很多,比如身份證的錄入、銀行辦理業務時的人臉驗證。
而動态的人臉識别會由于人臉距離攝像頭的距離等因素,配合度較低,需要準确捕捉到運動的人臉,難度就比較大了。
人臉識别技術
人臉識别技術中有兩項常見任務:判斷圖像或視頻中出現的人是不是同一人,即人臉認證;判斷這個人到底是誰,即人臉檢索。人臉認證和人臉檢索的核心均為人臉相似度的判決。
機器在判斷兩張圖片中人臉的相似度時一般有以下4步:人臉檢測---預處理---特征提取---特征對比。通過這些步驟不難看出,人臉識别技術是模仿人類識别人臉的過程,用計算機比較人臉圖像的相似性。
看到這裡可能有些同學要問:既然是比較相似性,那我們該如何評價人臉識别的效果呢?
說到人臉識别的效果,就不得不提到人臉識别的公開測試集。目前在國際上比較有名的人臉識别公開測試集一個是LFW公開集,此公開集中6000個圖像對,最高準确率已經達到99.83%,超過了人眼的水平;另一個公開集是華盛頓大學發布的MegaFace公開集。
如果從公開測試集的效果來看人臉識别技術已經逐步接近甚至是超過人眼的水平。
人臉識别效果的影響因素
雖然在公開集中人臉識别取得了很高的準确率,甚至在某些特定情況的準确率已經超過了人眼識别,但在實際應用過程中會存在很多影響因素,一類是外因,一類是内因。
外因的影響因素主要有光線影響,比如說極端的光線或者人臉光照分布不均等,除了光線以外攝像頭分辨率也是一個很大的影響因素,拍攝角度不好或者離拍攝人物很遠的時候,會導緻機器識别不出人臉。
内因則包括人臉部的遮擋——墨鏡、劉海、口罩等;還有些拍照角度以及臉部紋理變化也會影響人臉識别的效果。
圖文識别圖文識别是計算機視覺的另一個典型應用。
圖文識别的分類
圖文識别的基本概念就是根據已有的文字把它識别出來。它主要有兩個分類,第一個是OCR光學字符識别,即對已有的文字把它把它識别出來;另外一個就是在線手寫識别,像大家熟悉的訊飛輸入法裡的手寫輸入,相比于OCR識别來說,手寫識别包含了更多的筆劃信息。
OCR識别
手寫識别的演進過程
以訊飛的圖文識别技術為例,大概經過了這4個演講過程:
手寫輸入法
輸入法中運用的單個字的識别技術。
手寫圖文
對于手寫的中英文字、詞、句子的識别。
行業文檔識别
例如發票以及快遞号的識别。
通用文字識别
這是現在我們要做的,就是随機拍個照片,就能對裡面的文字進行識别了。
圖文識别現在廣泛運用于試卷評閱中。我們先讓機器把手寫的文字識别成機器能夠看懂的格式,然後下面就可以做作文的評閱等相關工作了,現在,數學公式也能讀出來了。最終,我們想要達到的目标是“Read anything”。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!