陰影下的人臉識别産業:被低估的風險
發于2020.11.16總第972期《中國新聞周刊》記者/楊智傑
清華大學法學院教授勞東燕的抗争,赢得了一次小小的勝利。
今年3月,勞東燕在小區單元樓電梯口意外看到一張公告:小區即将在每個單元樓門口安裝人臉識别門禁系統,下方附了一個二維碼,要求業主自行掃碼登記,上傳人臉、身份證和房産證等信息。出于職業本能,在人臉識别過度應用上,勞東燕一直是堅定的反對者。她給物業和居委會寫法律函、郵寄過去,提醒對方,不經同意而收集個人的生物信息,違反現行的法律規定。在和街道、業委會與物業開展了四方“談判”後,該小區推行人臉識别門禁的計劃無限延期,至今尚未開啟。
不僅是勞東燕,越來越多的知名高校法學院教授站出來說不。“北大法學院的一位教授,他寫過關于人臉識别的文章,有小區的業主拿着他的文章給物業公司看,随後物業擱置了人臉識别系統的安裝。我有一位同門師兄,也是刑法專業的老師,在大學園區提出安裝人臉識别系統時,他追問是哪個部門要求收集,能否拿出相應的法律依據?後來,安裝的事情就不了了之了。”勞東燕寫道。
法學教授們的擔心,正在逐漸成為現實。以人臉信息交易為核心的黑色産業鍊,不僅存在,而且非常猖獗。近日,央視新聞報道,在某些網絡交易平台上,花2元就能買到上千張人臉照片,照片主人可能會遭遇精準詐騙、财産損失,甚至人臉可能被用于洗錢、涉黑等違法犯罪活動。“你面前的人臉識别機,隻要掃一下你的臉,比你更清楚你的銀行卡餘額”。人臉數據,如果被洩露并與其他數據關聯,将帶來災難性的後果。
“人臉識别的風險超出你所想。”勞東燕告訴《中國新聞周刊》,“你不知道是誰在收集人臉,不知道到底收集了你哪些信息,也不知道對方保存了什麼,更不知道對方怎麼使用。後面全部都是黑箱。”
“人臉”被偷了
“3萬張人臉庫、15萬條記錄,嵌入行業的深度學習算法為核心,人臉識别準确率>99.97%、識别速度<200ms。人臉識别終端,結合精準紅外測溫模塊及人臉識别算法,就可以實現人臉識别和非接觸測溫二合一的功能。”這是一款人臉識别 測溫一體終端的産品介紹。這樣的産品,因為今年疫情而銷售火爆,大量出現在了商場、寫字樓、辦公機構、地鐵站、火車站的入口。除了測溫,這些産品的另一個被忽視的功能是:采集人臉信息。
從技術上來看,采集人臉信息很簡單,隻要有攝像頭就可以不間斷采集。很多人都有這種感受,收集并使用人臉數據的工具和場景,正變得越來越多:擁有相冊讀取權限的App、提供人臉解鎖功能的手機廠商、進行身份驗證和面部檢測的各種金融類App,甚至是辦公樓裡的刷臉出入系統,以及無處不在的安防攝像頭。
除了少數獲得用戶同意的軟件或場景,大量場景下的人臉信息采集,悄無聲息。“部分商城會運用人臉識别技術,收集顧客的行為和購買手段”“一些高校運用人臉識别技術收集學生的擡頭率、微表情、上課的姿态”,以及“基于人臉圖像分析的換臉、美妝、性格判斷、健康狀态預測等應用”。南方都市報人工智能倫理課題組和App專項治理工作組發布的《人臉識别應用公衆調研報告(2020)》(以下簡稱《報告》),列舉的上述場景中,這些“靜悄悄”收集的方式,被多數受訪者難以接受。
“從數據收集環節來看,人臉識别具有無意識性與非接觸性,可以遠距離發揮作用,并能長時間大規模地積累數據而不被用戶察覺,具有很強的侵入性。”勞東燕撰文分析。
數據采集是人臉識别産業的最前端,因為人臉識别的準确度,需要靠大量的人臉數據來“投喂”。多位技術人員告訴《中國新聞周刊》,技術發展早期,數據主要來自于機構或者高校實驗室的公開數據集,公司找志願者有償采集也是重要途徑。
雲從科技相關負責人告訴《中國新聞周刊》,雲從科技為此構建了一個由91個攝像頭組成的矩陣用于全方位采集人臉,2年時間采集了1000個人,每個人産生了20萬張圖片,共計2億張圖片。采集的人臉數據場景也非常豐富,包括不同表情和服飾,比如閉眼、皺眉、微笑、大笑、戴眼鏡、戴帽子等等。另外還會搜集不同光線環境下的數據,例如逆光、背光、陰陽臉等。
但線下采集的數據遠遠不夠,雲從科技還從網絡抓取了1000萬人大概10億張人臉數據,加入到機器學習的數據庫中。基于這些海量的數據,公司人臉識别準确率從68%上升到99%。
使用爬蟲工具抓取互聯網上公開的照片,成為整個行業的普遍做法。中科院計算所研究員山世光研究計算機視覺和機器學習,也是人臉識别公司中科視拓的創始人之一。他曾告訴《中國新聞周刊》,人們在網站上傳照片,如果能找到兩三張或者十幾張照片,這個人的數據就可以用來給算法做能力建設。這些數據包括一些明星、體育運動員、政治人物的照片,也包含普通人的照片,數量龐大。
黃昊(化名)曾在微軟研究院工作,他告訴《中國新聞周刊》,現在人臉識别模型最需要質量較差的數據,比如大角度的照片、光照不好的照片、年齡跨度較大的照片等。這些公司很少再爬取社交網站上擺拍的、質量較高的照片,而是直接在生活場景中主動放置攝像頭拍攝和識别,這種無配合的數據效果最佳。
多位人臉識别從業人員都提到,在人臉識别技術上,中國之所以走在世界前列,一定程度上得益于互聯網上的大量數據以及相對寬松的網絡環境。在他們看來,互聯網上的照片是“主動公開的”,拿這些數據鍛煉算法“不算侵犯隐私”,公司并不會獲取除人臉外的其他個人信息。
中國科學院自動化所研究員、北京智源人工智能研究院AI倫理中心主任、國家新一代人工智能治理專委會委員曾毅認為,這種爬蟲的做法并不合理合法,“我甚至難以相信,技術公司隻是單純采集照片,不拿走網站上其他的個人信息。”他解釋,在網上抓取的數據需要先整理和标注,再提供給算法訓練。标注中,一張圖可以有許多分類,比如女性、成年人、亞洲人等。曾毅指出,社交網站上有一些數據信息,比如生日、畢業院校、職業等,都可以賦予照片解釋,用來幫助數據标注。
這種做法在國外也引發了争議。澳大利亞攝影師Georg Holzer是Flickr(圖片分享網站)的用戶,他喜歡把照片發布在網站,并同意将照片免費共享給非營利組織和藝術家。但是,讓他意外和反感的是,巨頭公司IBM在未經他同意的情況下,拿走了他拍攝的照片,也包括網站上其他數百萬張照片,用以鍛煉人臉識别技術的準确度。
這是NBC(美國國家廣播公司)的一則報道,指出了人臉識别行業的潛規則:IBM以及數十家研究機構免費采集網上的公開照片,用以鍛煉算法,而照片中的人和攝影師并不知情,想要删除自己的照片,更是幾乎不可能。
今年1月,美國一家面部識别軟件公司Clearview AI遭遇行業聲讨。該公司發明了一款人臉識别的應用程序,使用者隻需上傳一個人的照片,就能搜索出這個人在網絡上的公開照片以及網頁鍊接。更讓人驚恐的是,這個系統可以識别此人的名字、住址,曾經做過什麼事情,以及人際關系網。
系統背後,有一個超過30億張圖片組成的數據庫。Clearview AI稱,這些圖片是從Facebook、YouTube、Twitter、Instagram以及其他數百萬個網站上搜集而來。此前1年,已經有600多家執法機構使用了Clearview的軟件。由于牽扯隐私等問題,Clearview AI公司遭到抵制。新澤西州頒布州禁令,禁止執法機構使用 Clearview AI 的應用工具服務。Twitter、Google、YouTube、Facebook 等互聯網公司也對其進行封殺。
“人臉”被賣了
今年9月,李開複在一場峰會的言論,觸碰到了行業的敏感神經。李開複稱,早期他曾幫助曠視尋找到了美圖、螞蟻金服等合作夥伴,讓曠視拿到了大量的人臉數據,幫助分析各個行業怎麼切入。
螞蟻金服迅速做出回應,稱“從未提供任何人臉數據給曠視科技”,雙方過往合作僅限曠視科技授權其圖像識别算法能力給螞蟻單獨部署和使用,不涉及任何數據的共享和傳輸。曠視也緊接着在微博澄清,公司不掌握,也不會主動收集終端用戶的任何個人信息,曠視高度重視“數據隐私安全保護”問題,已在企業内部制定、實施了完善的數據隐私保護制度。當晚,李開複為此事道歉,稱這隻是一次口誤。
曠視科技成立于2011年,起家于人臉識别,在計算機視覺領域與商湯科技、依圖科技、雲從科技并稱CV(計算機視覺)四小龍。這些AI創業公司,位于人臉識别産業的中遊。同樣在這個賽道與之競争的還有微軟、BAT、Google等大型互聯網公司,坐擁海量數據。人臉識别創業公司對這些數據,也具有強烈的渴望。
AI技術公司如何與客戶合作,人臉數據被誰拿走、如何存儲,受到公衆大量關注,但從來都不透明。曠視科技《Face 人工智能開放平台開發者服務協議》中就曾指出,曠視有權保存用戶的數據并用于曠視及其關聯公司内部研究的目的,“主要用來提升人臉識别的準确率、算法升級和改善我們的産品和服務等”。
7月6日,山西太原市,即将參加2020年全國高考的考生前往考點查看考場,考務人員運用“人臉識别”技術核驗考生身份。攝影/本刊記者 韋亮
雲從科技相關負責人對《中國新聞周刊》解釋,公司為客戶提供服務時,不管什麼合作模式,一般情況下,數據都存儲在客戶那邊,客戶不可能願意把數據給人臉識别技術公司。“特别是銀行、公安都有内網,我們的服務器都是建在他們内網,相當于他們的私有服務器,沒有辦法外傳數據。”
北京市安理律師事務所合夥人王新銳長期關注數據安全和人工智能,在他看來,大公司不可能把數據傳給AI公司,數據是大公司的核心競争力,“萬一AI公司把數據賣給别人怎麼辦?”
不過,早期一些人臉識别技術公司疏于對數據的保護。2015年,黃昊注意到,有一家公司的人臉數據标注是由其他公司外包的,從一個網站上就能直接看到所有數據。那次洩露隻有業内人士了解,他自己也下載了一批數據,不過沒持續很長時間,漏洞得到了修複。黃昊解釋,保護數據需要成本,對于初創公司而言是不小的費用。更為重要的是,對很多公司來說,對數據過分保護,會阻礙人臉識别技術的發展。“一些公司隻能從服務器上獲取數據,我想在自己的電腦上做一些可視化處理,也拿不到數據,就少了一些做分析的手段。”
被“疏漏”的數據,很多流入了人臉信息販賣的黑市。北京青年報曾報道,有商家在網絡商城兜售“人臉數據”,涵蓋2000人的肖像,每個人有50到100張照片,共計17萬條,照片的主人公不僅有明星,還有不同職業、不同年齡的普通人。此外,每張照片搭配一份數據文件,包括眼睛、耳朵、鼻子、嘴巴、眉毛等輪廓信息。商家告訴記者,這些人臉數據,一部分從搜索引擎抓取,另一部分來自境外一家軟件公司的數據庫。
更嚴重的是,随着越來越多的人臉數據被上傳到雲端,數據洩露或違規使用的可能性大大增加,不排除運營工作人員的盜取、數據庫被黑客入侵、公司破産倒閉數據庫被倒賣等等可能。
“從數據保管環節來看,一旦收集主體未能善加保護,會導緻大規模洩露的情況;即便其采取合理的保管措施,也仍然面臨被黑客侵入而洩露的危險。由于個人的生物學數據具有穩定不變性,一旦洩露,相應的風險及危害即不可逆轉,也無法有效彌補。”勞東燕認為,可以确定的是,人臉數據的洩露,所帶來的潛在的安全風險,遠比手機号與賬戶信息的洩露更為嚴重。人臉、聲音、虹膜等生物信息洩露後,沒有辦法再更改。
匹配身份後的人臉數據危害極大
中商産業研究院的一份報告顯示,據預測,2020年我國生物識别技術(含人臉識别技術)行業市場規模将突破300億元。圍繞人臉識别,已經形成了基礎層(芯片、算法、數據)、技術層(視頻人臉識别、圖片人臉識别、數據庫對比檢驗)、應用層(硬件、應用和應用方案)的完整産業鍊結構。
當下人臉識别技術的風險點,更多集中在存儲環節。近期,央視新聞報道指出,由于人臉識别應用五花八門,也沒有統一的行業标準,大量的人臉數據都被存儲在各應用運營方,或是技術提供方的中心化數據庫中。數據是否脫敏、安全是否到位、哪些用于算法訓練、哪些會被合作方分享,外界一概不知。而且,一旦服務器被入侵,高度敏感的人臉數據就會面臨洩露風險。
在曾毅看來,去年深圳深網視界科技有限公司(SenseNets,以下稱深網視界)發生的數據洩露事件集中體現了存儲端的薄弱。2019年2月,荷蘭著名安全研究員 Victor Gevers發現,中國安防視覺領域的一家企業深網視界未進行安全保護,導緻其數據庫在公網“裸奔”,任何人都可以訪問數據。該數據庫有超過250萬名用戶的信息,除了用戶名,還有非常詳細且敏感的信息,比如身份證号碼、身份證簽發日期、性别、家庭住址、出生日期、照片、工作單位以及過去24小時的到訪記錄等。
深網視界并非業内知名企業,但與多地公安部門長期合作。數據庫可供任何人在線訪問,這意味着有惡意的人可以随時添加和删除、倒賣記錄。Gevers曾給公司發送提醒,但是對方都置之不理。“很顯然,一些地方政府主要關注系統的功能,忽略了公司以及它服務的對象對信息安全的保護。”曾毅對《中國新聞周刊》說。
類似深網視界這樣的數據洩露,後果是災難性的。不少業内人士都指出,單純的個人照片不構成太大風險,但匹配了身份信息的照片,危害極大。
人臉照片與身份信息相互匹配的渠道,越來越多樣化。“第一種是通過支付軟件,上面可能本來就有了個人信息,再加上人臉信息,就能匹配;第二種是一些園區、旅遊景點,刷身份證進入,就有了數據庫;第三種是不少金融服務公司會拿客戶的信息去查詢比對權威部門的數據庫,對比完以後,有的公司會把信息儲存下來,存在洩露的可能。”有業内人士分析。
有專家提醒,不少場景或者應用軟件,要求消費者舉着身份證拍照,這是最危險的,因為既有身份證又有人臉信息,一定要盡量避免提供這樣的信息。
不少媒體都曾曝光,“照片活化”工具可将人臉照片修改為執行“眨眨眼、張張嘴、點點頭”等操作的人臉驗證視頻。匹配了身份信息的照片,經過“照片活化”後,能實名注冊市面上大多數軟件,加上驗證碼破解方式,不法分子在辦理網貸、精準詐騙等方面幾乎毫無障礙。
2019年1月,四川省公安機關網安部門打掉一個使用軟件制作動态人臉圖片,破解人臉識别系統,盜竊支付寶資金的犯罪團夥,抓獲犯罪嫌疑人8名,查獲公民個人信息數據3000餘萬條。
2019年8月,深圳市龍崗警方抓獲一個人臉識别認證黑産團隊。據報道,一位市民在某機構網站辦理業務時,發現自己早已是網站注冊用戶,而注冊這個網站,必須輸入姓名、身份證号、手機号、驗證碼,并且要進行人臉識别認證才可以注冊。警方破獲案件後了解到,黑産團夥的做法是,在黑市購買“姓名 身份證号 頭像照片”的資料,然後利用軟件,對照片進行調色、3D建模、渲染,讓照片活化,此時,照片便可以做出張嘴、搖頭、眨眼等驗證指定動作。團夥把事先做好的視頻保存在經過特殊處理的手機上,驗證時,手機會直接彈出“選擇媒體”的模塊,而不是打開攝像頭。打開事先準備好的視頻,該團夥便能順利通過認證,注冊該網站的會員。
王斌(化名)曾在騰訊優圖實驗室做人臉識别的活體檢測工作,他告訴《中國新聞周刊》,2017年,他就曾見過上述操作的黑産攻擊用戶的其他系統,獲取重要資産,當時技術騙過了算法,但是幸好被後續的人工審核查了出來。“人眼可以輕易判斷這是個假人,但讓當時的活體檢測技術識别這種攻擊,仍有一定難度。”王斌說。
“谷歌已經明确拒絕将人臉與身份進行匹配,擔心因此遭到濫用。其他科技公司似乎沒有那麼堅決。亞馬遜和微軟都在使用雲計算服務提供人臉識别,而Facebook也将其列為核心計劃。”《經濟學人》雜志在2017年的一篇文章中指出。
有專家指出,“人臉識别應用主要存在技術風險(包括誤識率風險、歧視風險以及技術對抗漏洞)、濫用風險以及信息風險,繼而導緻‘錢、安全’等各方面的風險随着人臉識别應用的普遍化而增長。”
被濫用的技術
早在2017年,前美國中央情報局技術分析員斯諾登就曾經預言:以手機解鎖為代表的人臉應用出現,會讓人臉掃描正常化,也會讓人臉識别終将被濫用。
如今,預言已經成為現實。2017年,蘋果推出支持人臉識别解鎖的新款手機iPhone X,同年,支付寶、京東、蘇甯也都先後開啟刷臉支付功能。人臉識别的消費級應用場景開始不斷延伸。
“由于未作任何限定,随着人臉識别技術應用場景的大肆擴張,濫用與歧視的現象必将不可避免。當下常見的應用場景,除了安保、門禁、支付與認證等之外,人臉識别技術也被廣泛用于商場流量統計、社區管理、養老金領取、辦稅認證、物品保存、景區出入與演出場所的檢票等。它甚至還進一步被推廣用于教學過程,以監控與管理學生的課堂行為。”勞東燕撰文寫道。
教育是人臉識别的“重災區”。不少教育科技公司都推出過類似曠視的監控功能,聲稱可以分析學生在課堂上的行為,并對異常行為實時反饋。除了課堂以外,高校所謂的“智能校門”,教室門及宿舍的出入也都在加裝人臉識别系統。《2019年中國智慧教育行業市場發展及趨勢研究報告》數據顯示,2018年智慧教育的市場規模超過5000億元。衆多AI技術公司、教育場景公司加入紅利的争奪中。
小區引入人臉識别門禁系統,在今年也引發越來越多的争議。近四五年來,國内不少小區都開始引入人臉識别做門禁。2017年,一家技術公司廈門雲脈曾宣傳,“人臉識别門禁正逐漸成為國内‘智慧小區’标配,傳統小區的開發模式已逐漸被颠覆。”
但是,作為法學教授,勞東燕本能地意識到其中的法律漏洞和安全隐患。“我們上傳的人臉數據怎麼保存,如何使用?”街道辦主任說,數據使用局域網存儲,也可以保存在政府部門的數據庫,這個回答依舊讓勞東燕摸不清頭腦。她對《中國新聞周刊》說,假如由物業保管,此後物業如果沒有動力投入安保,數據就有安全隐患。她經常接觸信息洩露的法律案件,一些房地産公司、物業将個人詳細的地址、聯系方式等洩露出去,隻要其中有利益,就難以防範。
勞東燕從多方了解到,小區安裝人臉識别門禁,并非物業的主意,而是街道辦的“規劃”。2017年,北京有12家小區入選首批智慧小區示範工程建設單位,人臉識别門禁便是标配。不僅北京,作為“智慧城市”、“智慧社區”、“舊改”、“雪亮工程”中的一個重要系統,集人臉識别、門禁控制于一體的智能門禁閘機,正在滲透中國許多省市的社區。
北京太川科技有限公司的一位銷售人員告訴《中國新聞周刊》,去年年底開始,找他們安裝人臉識别門禁的小區多了起來。據他介紹,“石景山區30個社區300台雲對講門口機、西城區舊改23個社區的樓宇智能化系統改造、昌平回龍觀街道5個社區智慧化改造,以及通州的雪亮工程等”,使用的都是該公司的産品。這些項目多是對方主動找上門合作,一些街道辦有相應的補貼政策。
在勞東燕看來,政府部門有需求,公司要搶占市場,二者“合謀”,讓存在大量風險隐患的人臉識别應用“遍地開花”。“從政府角度,人臉識别不失為便捷的技術工具,為安全需要,盡可能做出嚴密的防控。在資本的維度,從事研發推廣的企業,接近瘋狂地拓展業務,是為了盡快提升自身的市場估值與利潤。不得不說,正是二者的親密合作,人臉識别技術跑馬圈地,得以像洪水一樣勢不可擋。”
面對越來越多的人臉識别“入侵”生活,勞東燕一直站出來抗争。2019年10月29日,北京市軌道交通指揮中心主任戰明輝在一個論壇上透露,北京将應用人臉識别技術實現乘客分類安檢,安檢人員據此對應采取不同的安檢措施。兩天後,勞東燕便發表文章《地鐵使用人臉識别的法律隐憂》,堅決反對這樣的做法。目前,北京地鐵引入人臉識别技術的計劃被暫時擱淺。
“由于對如何收集、保存、傳輸、使用與處理數據,以及是否允許出售或提供給第三方,能否放在網上等,現行法律并未做任何的介入,這就使得應用場景的大肆擴張可能引發的風險,也呈幾何倍數地增長。”勞東燕直言,這不隻是細思極恐,根本就是不敢想象。
欄目主編:張武 文字編輯:李林蔚 題圖來源:圖蟲創意 圖片編輯:笪曦
來源:作者:中國新聞周刊 楊智傑
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!