有人一周内清理了PASCAL數據集中的17120張圖像-tft每日頭條

有人一周内清理了PASCAL數據集中的17120張圖像

科技更新时间:2025-11-01 02:51:23

選自hasty.ai

作者：Vladimir Lyashenko

機器之心編譯

編輯：陳萍

幹淨的數據對于你的 AI 模型的表現有多重要？

有研究稱，他們使用一種技術在一周内清理了 PASCAL VOC 2012 數據集中的 17120 張圖像，并發現 PASCAL 中 6.5% 的圖像有不同的錯誤（缺失标簽、類标簽錯誤等）。他們在創紀錄的時間内修複了這些錯誤，并将模型的性能提高了 13% 的 mAP。

通常情況下，模型性能較差可能是由于訓練數據質量不高引起的。即使在 2022 年，由于數據是公司最重要的資産之一，開發人員也經常因數據質量低劣而感到工作棘手。本文中，總部位于德國柏林的面向視覺 AI 從業者的下一代注釋工具提供商 Hasty，希望通過更快、更高效地清理數據來簡化和降低視覺 AI 解決方案開發的風險。

他們開發了 AI Consensus Scoring (AI CS) 功能，它是 Hasty 生态系統的一部分（Hasty 是該公司開發的一個端到端的 AI 平台，可讓 ML 工程師和領域專家更快地交付計算機視覺模型，從而縮短變革性産品和服務的上市時間），該功能使得手動共識評分（consensus scoring）成為過去，其将 AI 集成到質量控制流程中，使其更快、更便宜，并且随着用戶添加的數據越多，性能擴展越好。

本文中，研究者将利用 AI CS 功能來改進、更新和升級最流行的目标檢測基準數據集 PASCAL VOC 2012 。

我們先來簡單介紹一下 PASCAL，它是一個著名的學術數據集，可用于目标檢測和語義分割等視覺 AI 任務的基準模型。PASCAL 已有十多年的曆史，現在還一直被廣泛使用，近 4 年就有 160 篇論文使用它。

PASCAL 在過去十年中沒有改變，世界各地的團隊在科研中都保持該數據集的「原樣」進行科研。但是，該數據集是很久以前注釋的，當時算法還沒有今天準确，注釋要求也沒有那麼嚴格，會出現很多錯誤。例如下圖所示：盡管馬是在前景并且可見，但沒有馬的标簽，這些質量問題在 PASCAL 中很常見。

如果讓人工來處理 PASCAL 數據集，成本高昂且非常耗時，該研究使用 AI 進行質量控制并提高 PASCAL 的質量，他們的目的是如果數據質量足夠好，模型性能會不會随之提高，為了執行這個測試，他們設置了一個包含以下步驟的實驗：
在 Hasty 平台上使用 AI Consensus Scoring 功能清洗 PASCAL VOC 2012；
使用 Faster R-CNN 架構在原始的 PASCAL 訓練集上訓練自定義模型；
使用相同的 Faster R-CNN 架構和參數，在清理後的 PASCAL 訓練集上準備一個自定義模型；
實驗之後，得出結論。

下面為實驗過程，以第一人稱進行編譯整理，看看他們是如何做到的以及結果如何？

清洗 PASCAL VOC 2012

我們的首要任務是改進數據集。我們從 Kaggle 獲得數據集，将其上傳到 Hasty 平台，導入注釋，并安排兩次 AI CS 運行。對于那些不熟悉我們 AI CS 功能的人，該功能支持類、目标檢測和實例分割審查，因此它會檢查注釋的類标簽、邊界框、多邊形和掩碼。在進行審查時，AI CS 會尋找額外或缺失的标簽、僞影、錯誤類别的注釋，以及形狀不精确的邊界框或實例。

PASCAL VOC 2012 包含 17.120 張圖像和 20 個不同類别的約 37.700 個标簽。我們已經針對 28.900 (OD) 和 1.320 (Class) 潛在錯誤任務運行了目标檢測和類别審查。

AI CS 可以讓你發現潛在問題。然後，你可以專注于修複錯誤，而無需花幾天或幾周的時間來查錯。

我們要檢查這些潛在錯誤并解決它們，最重要的是，我們希望修改後的注釋比原始注釋器更準确。具體包括：
當 AI CS 檢測到潛在錯誤時，我們嘗試修複每張圖像上所有可能出現的這些錯誤；
我們沒有打算注釋每個可能的目标，如果注釋遺漏了一個目标，并且在前景中或在沒有縮放的情況下肉眼可見，我們就注釋它；
我們試圖讓邊界框像像素一樣完美；
我們還對部分（數據集類目标未注釋部分）進行了注釋，因為原始數據集具有它們的特性。

有了上述目标，我們首先檢查了現有注釋類标簽的類審查運行，試圖找出潛在的錯誤。超過 60% 的 AI CS 建議非常有用，因為它們有助于識别原始數據集不明顯的問題。例如，注釋器将沙發和椅子混淆。我們通過重新标記整個數據集的 500 多個标簽來解決這個問題。

原始注釋示例。圖中有兩張沙發和兩把扶手椅。兩把扶手椅中的一張标注為沙發，而另一把則标注為椅子。

修改後的标注，扶手椅是椅子，沙發是沙發。

在分析 OD 和 Class 審查時，我們發現 PASCAL 最突出的問題不是錯誤分類注釋、奇怪的邊界框或額外的标簽。它最大的問題是缺少許多潛在的注釋。我們很難估計确切的數字，但我們覺得有數千個未标記的目标應該被标記。

OD 審查通過數據集，尋找額外或缺失的标簽和錯誤形狀的邊界框。并非所有缺失的注釋都被 AI CS 突出顯示，但我們已盡最大努力改進 AI CS 預測的至少有一個缺失标簽的所有圖片。結果，OD 審查幫助我們在 1.140 張圖像中找到了 6.600 個缺失注釋。

我們花了大約 80 個小時來審查所有建議并清理數據集，這是一個了不起的結果。

在原始 PASCAL 上訓練自定義模型

如上所述，我們決定設置兩組實驗，訓練兩個模型，一個在初始的 PASCAL 上，另一個在經過清理的 PASCAL 版本上。為了進行神經網絡訓練，我們使用了 Hasty 另一個功能：Model Playground，這是一個無需編碼的解決方案，允許你在簡化的 UI 中構建 AI 模型，同時保持對架構和每個關鍵神經網絡參數的控制。

在整個工作過程中，我們對模型進行了多次叠代，試圖為任務找到最佳超參數。最後，我們選擇了：
以 ResNet101 FPN 為骨幹的更快的 R-CNN 架構；
采用 R101-FPN COCO 權值進行模型初始化；
模糊，水平翻轉，随機剪切，旋轉和顔色抖動作為增強；
AdamW 為求解器，ReduceLROnPlateau 為調度器；
就像在其他 OD 任務中一樣，使用了損失組合（RPN Bounding Box 損失、RPN 分類損失、最終 Bounding Box 回歸損失和最終分類損失）；
作為指标，我們有 COCO mAP，幸運的是，它直接在 Model Playground 中實現。

大約一天半的時間來訓練。假設架構的深度、網絡正在處理的圖像數量、計劃的訓練叠代次數（10.000）以及 COCO mAP 在 5.000 張圖片中每 50 次叠代計算的事實，它并沒有花費太長時間。以下是模型取得的結果：

原始模型訓練叠代的平均損失。

跨原始模型驗證叠代的 COCO mAP 圖。

使用這種架構實現的最終 COCO mAP 結果是驗證時的 0.42 mAP。在原始 PASCAL 上訓練的模型的性能不如最先進的架構。盡管如此，考慮到我們在構建模型上花費的時間和精力很少（經曆了 3 次叠代，每次花費 1 小時），這仍然是一個不錯的結果。無論如何，這樣的結果會讓我們的實驗更有趣。讓我們看看是否可以在不調整模型參數的情況下，通過改進數據來獲得所需的指标值。

在更新的 PASCAL 上訓練的自定義模型

在這裡，我們采用相同的圖像進行訓練和驗證，以訓練以下模型作為基線。唯一的區别是拆分中的數據更好（添加了更多标簽并修複了一些标簽）。

不幸的是，原始數據集并沒有在其訓練 / 測試集拆分中包含 17120 個圖像中的每一個，有些圖片被遺漏了。因此盡管在原始數據集中添加了 6600 個标簽，但在訓練 / 測試拆分中，我們隻得到了大約 3000 個新标簽和大約 190 個修複标簽。

盡管如此，我們繼續使用 PASCAL VOC 2012 改進後的訓練 / 測試拆分來訓練和驗證模型，看看效果如何。

更新模型的訓練叠代中的 AverageLoss 圖。

更新模型的驗證叠代中的 COCO mAP 圖。

直接比較

正如我們所見，新模型的性能優于原始模型。與之前模型的 0.42 值相比，它在驗證時達到了 0.49 COCO mAP。這樣看很明顯實驗是成功的。

結果在 45-55 COCO mAP 之内，這意味着更新後的模型比原始模型效果更好，并提供了所需的度量值。是時候得出一些結論并讨論我們剛剛目睹的情況了。

結論

本文展示了以數據為中心的 AI 開發概念。我們的思路是通過提升數據以獲得更好的模型，進而也獲得了想要的結果。如今，當模型開始接近性能的上限時，通過調整模型将關鍵指标的結果提高 1-2% 以上可能是具有挑戰性且成本高昂的事。但是，你不應該忽略構建機器學習并不僅僅是模型和參數，還有兩個關鍵組成部分——算法和數據。

在該研究中，我們并沒有試圖擊敗任何 SOTA 或獲得比此前研究更好的結果。我們希望通過實驗結果展示：花費時間改進數據有利于模型性能。希望通過添加 3000 個缺失标簽使 COCO mAP 增加 13% 的案例足夠令人信服。

通過清理數據和向圖像添加更多标簽可以獲得的結果很難預測。效果很大程度上取決于你的任務、NN 參數和許多其他因素。即使在本文的例子中，我們也不能确定多 3000 個标簽會是能帶來額外 13% mAP 的。盡管如此，結果不言自明。雖然有時很難确定通過獲得更好的數據來改進模型指标的上限，這是值得嘗試的方向。

原文鍊接：https://hasty.ai/content-hub/articles/cleaning-pascal-improving-map-by-13?utm_source=mk832ksa
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技 cad線性标注快捷鍵
演示機型：華為MateBookX系統版本：win10APP版本：AutoCAD2020cad線性标注快捷鍵為DLI，是常規的标注水平，可标注垂直方向直線長度或兩點之間的距離。另外對齊标注快捷鍵也是DAL，用于标注非水平或垂直兩點的距離。以上快捷鍵還可在工具菜單欄裡，找到相應的菜單或圖标進行标注。AutoCAD是Autodesk（歐特克）公司首次于1982年開發的自動計算機輔助設計軟件，用于二維繪圖 2023-07-09
科技手機沒聲音是哪出問題了
1、查看耳機插孔内金屬片是否走位，用筆芯将其撥回。2、查看播放器設備及手機喇叭是否被禁音，将音量調整... 2023-07-09
科技網頁縮小放大快捷鍵是什麼
演示機型：華為MateBookX系統版本：win10網頁縮小放大的快捷鍵是Ctrl+鼠标滾輪。其他快捷鍵：Ctrl+D字體格式；Ctrl+E居中對齊；Ctrl+F查找；Ctrl+G定位；Ctrl+H替換；Ctrl+I斜體；Ctrl+J兩端對齊；Ctrl+K超級鍊接；Ctrl+L左對齊；Ctrl+M左縮進；Ctrl+N新建；Ctrl+O打開；Ctrl+P打印。快捷鍵：又叫快速鍵或熱鍵，指通過某些特定 2023-07-09
科技無法識别的usb設備怎麼解決
1、首先确認是否USB本身的故障，可以用同一個USB設備在另一台電腦上接上。2、若都不能使用，則說明... 2023-07-09
科技華為手機能防止嗅探嗎
1、華為手機（EMUI8.0及以上版本）通過MAC地址随機化來防範此類攻擊。2、MAC地址随機化是指... 2023-07-09
科技四輪車拖拉機電機怎麼接線
1、電瓶正極接啟動機磁力開關（大螺絲），負極接啟動機打鐵。2、從啟動機磁力開關（大螺絲）（就是電瓶正... 2023-07-09
科技安卓怎麼找自己的手機号碼
1、首先需要打開手機，然後再點擊【設置】圖标。2、然後再進入設置主界面，點擊【無線和網絡】。3、然後... 2023-07-09
科技如何開啟手機錄音功能
1、如果沒有設置自動錄音，如果想錄音的時候，需要自己點擊錄音才行。2、進入設置界面後，把界面往下拉，點擊電話。3、進入電話設置界面後，點擊通話錄音。4、進入通話錄音後，可以看到，手機默認的方法是：不自動錄音。5、點擊所有通話自動錄音，點擊後，後面會顯示一個打勾号，就表示設置了自動錄音。 2023-07-09
科技蘋果怎麼下載軟件
1、不論蘋果手機還是電腦、平闆，隻要是蘋果系列的産品，它們都會有一個相同的東西叫做蘋果ID。蘋果旗下的任何産品，隻要想下載軟件就必須要使用蘋果商店，并且登錄蘋果ID，取得蘋果ID的同意之後才能有資格下載軟件。2、以蘋果手機為例，點擊設置之後就會看到蘋果ID登陸者在最上方，點擊進入賬号，就可以看見iTunesstore與Appstore”的選項，其實這個就是蘋果的軟件管理器，可以在蘋果商店裡下載到各 2023-07-09
科技為什麼踏闆車不好打火
1、電池沒電。2、機油過髒。3、火花塞不點火，點火線圈故障。4、高壓泵提供的電壓不夠等。 2023-07-09
科技蘋果微信左上角浮窗怎麼關閉
1、在蘋果手機上打開微信，登錄微信賬号。2、我們需要打開一篇文章，這裡我們選擇“訂閱号消息”。3、點... 2023-07-09
科技佳能6d2拍人像配什麼鏡頭好
預算富餘，首選EF85mmf/1.4LISUSM、EF70-200mmf/2.8LISIIUSM，預... 2023-07-09
科技 vivo手機如何下載堡壘之夜
1、vivo手機下載《堡壘之夜》和其他手機下載《堡壘之夜》一樣，也是通過視頻軟件或者網站鍊接找到《堡... 2023-07-09
科技計算機系的什麼專業适合女生
1、WEB應用程序設計專業畢業後能夠從事網站應用程序開發、網站維護、網頁制作。2、可視化程序設計專業... 2023-07-09
科技分手比較有内涵的句子
1、愛情隻有兩種結果，要麼你媽變我媽，要麼各回各家，各找各媽。2、最好的婚姻不是你負責賺錢養家，我負... 2023-07-09
科技怎樣清理手機垃圾
1、在手機上搜索文件管理”，找到文件管理後，點擊打開。2、進入文件管理界面以後，點擊右上方更多”按鈕。3、在彈出界面中找到清理加速”，并點擊它。4、進入清理加速界面後，應用會自動掃描手機上可清理文件，并顯示出來，點擊對應的清理”按鈕。5、進入清理界面，我們可以查看将清理的文件、視頻或安裝包，确定可以删除後，點擊下方全部清理”。 2023-07-09
科技 1110柴油機是多大馬力
1、單缸,缸徑110mm功率多為14.7kw(以常柴zs1110為例)一馬力等于0.736kw,14... 2023-07-09
科技電腦電源故障解決方法
1、常見故障有兩種,第一,硬件故障；第二,軟件故障。聽報警聲。一長兩短是内存有問題。一長幾短是顯卡有... 2023-07-09
科技微博登錄不了怎麼辦
1、首先，我們需要登錄自己的新浪微博，大家輸入自己的登錄号碼，登錄密碼的話我們忘記的話，就不用輸入啦... 2023-07-09
科技電腦連不上網絡怎麼弄
1、首先右擊任務欄右下角網絡圖标，然後在擴展菜單中選擇“打開網絡和共享中心”。2、接着點擊“更改配置... 2023-07-09
科技 icloud備忘錄删掉怎麼找回
1、方法一：通過最近删除恢複，在我的iPhone中，找到最近删除，右劃然後點擊藍色圖标。2、方法二：... 2023-07-09
科技高考女生選什麼專業好
第一、選擇師範類專業，女孩子嘛！小編個人覺得還是穩定一點的好，而老師，工作相對來說比較輕松，時間較充裕，壓力不是那麼的大，而且，在校園裡沒有那麼多社會上的勾心鬥角，和純真的學生相處時非常棒的第二、選擇醫生相關方面的專業，這個可以說是超級穩定了，隻要你有能力，有責任心，專業知識功底好永遠都不用擔心失業，畢竟，醫生是不會被時代抛棄的第三、如果是理科比較好的女孩子，可以選擇工商管理類的專業，以後能更好的 2023-07-09
科技路由器橋接設置圖解
1、打開浏覽器，在網址裡輸入路由器的ip地址：192.168.1.1，多數路由器是這個地址。如果不确... 2023-07-09
科技蘋果手機怎麼查看激活日期
1、首先打開你的手機“設置”，下滑找到“通用”。點擊進入“通用”，選擇“關于本機”。2、進入“關于本... 2023-07-09
科技 excel中都有哪些常用快捷鍵
1、Ctrl+U。這是添加下橫線的快捷鍵，這個很大的可以運用在我們很多地方需要添加的時候，就不用一直... 2023-07-09
科技學習壓力大怎麼辦教你正确面對學習壓力
第一、運動。運動可以發洩一下不好的情緒，感覺承受不過來的時候，可以去學校的操場走一走，跑一跑，會好很多。第二、聽歌。一些歡快的歌曲也能緩解壓力。常聽聽歌曲，分散一下注意力，也能幫助自己想得開一些。第三、寫日記。記一記今天發生了什麼事，以及自己怎麼想的，可以有效梳理情緒，傾訴給日記本聽，讓日記本懂你，就不會覺得壓力大難受了。第四、向朋友家人傾訴。壓力大，壓得人難受，這時候可以跟朋友家人分享一下你的心 2023-07-09
科技電腦怎麼調屏幕亮度
1、首先點擊“開始按鈕”，選擇“控制面闆”。2、然後選擇“外觀和個性化”，在選擇“顯示”。3、接着在... 2023-07-09
科技 sata1和sata2和sata3接...
演示機型：Iphone12&&華為P40&&小米11系統版本：iOS14.4&&EMUI11&&MIUI12.0.71、外觀區别：大多數支持SATA2接口的主闆是黑色的，而SATA3接口是黃色、白色、藍色等。2、傳輸速度區别：SATA3接口可以達到6Gb/s，而SATA2接口可以達到3Gb/s，SATA1最慢。3、兼容性的區别：SATA3接口兼容SATA2接口和SATA1接口，SATA2接口兼容S 2023-07-09
科技熱風爐工作原理是什麼
1、熱風爐工作原理是煤通過爐排送進爐膛内，風機送風，通過煤層，與鍊條上的煤接觸充分燃燒并産生高溫煙氣... 2023-07-09
科技手機聲音突然變小了怎麼辦
1、檢查是否是因為音量設置過小，按住音量加鍵，将手機音量調節到最大。2、如果手機音量還是很小，可以重... 2023-07-09

tft每日頭條

> 科技

> 有人一周内清理了PASCAL數據集中的17120張圖像

有人一周内清理了PASCAL數據集中的17120張圖像

相关科技资讯推荐

热门科技资讯推荐

网友关注