極為簡略的介紹下當前計算機視覺的基本概念和基本的研究方向。
是什麼:使機器“看”的科學- 是什麼(分類)
- 在哪兒(檢測、定位、分割)
- 直接從圖片數據産生知識
為什麼:視覺是人最主要的信息輸入- 70~80%信息來自人眼
- 移動多媒體時代産生更多的是圖片和視頻數據
- 圖片和視頻價值沒有完全挖掘,屬于“暗數據”
- 圖片視頻包含更多的信息
基本任務
分為圖片和視頻兩部分,主要羅列比較成熟熱門的幾個方向。
分類(Classification)- 預測圖片的類别(What)
- 子任務
- 單标簽(Single-Label)
- 多标簽(Multi-Label)
- 粗粒度(Coarse-Grained)
- 細粒度(Fine-Grained)
- 典型應用:搜索、分類
檢測(Detection)- 定位物體位置(Where)
- 子任務
- D檢測
- 3D檢測
- 顯著性檢測
- 遙感檢測
- 典型應用:人臉檢測、汽車檢測
分割(Segmentation)- 像素級的内容理解和定位
- 子任務:
- 語義分割/實例分割
- Alpha Matting
- 3D分割
- 典型應用:換天、人像摳圖
圖像生成(Generation)- 通過算法生成圖片
- 子任務
- 随機生成
- 風格遷移
- 圖片合成
- 圖片翻譯
- 典型應用:卡通化、換臉、換裝
關鍵點定位(KeyPoint)- 定位圖像中的關鍵像素點
- 子任務
- 人臉關鍵點
- 人體關鍵點
- 手勢關鍵點
- 物體姿态估計
- 典型應用:人臉配準、手勢識别
圖像恢複(Restoration)- 蛻化圖像生成高質量圖像
- 子任務
- 超分辨率
- 圖像去噪
- 圖像修補
- 去模糊
- 上色、去霧、去雨等
- 典型應用:拍照畫質增強、老照片修複
視頻視頻跟蹤(Tracking)- 跟蹤視頻指定物體
- 子任務
- 單目标跟蹤
- 多目标跟蹤
- 典型應用:自動駕駛、安防監控
視頻識别(Video Recognition)- 識别視頻中的特定行為
- 子任務
- 人體行為識别
- 事件識别
- 典型應用:監控、安防
視頻摘要(Video Summarization)- 提取有意義(精彩)的片段
- 子任務
- 精彩鏡頭
- 縮略圖
- 典型應用:視頻動态封面
視頻插幀(Video Interpolation)- 合成任意時刻的視頻幀,從而優化解決視頻中卡頓、抖動等畫
- 典型應用:慢動作視頻制作
視頻其他任務一些典型的垂直應用- 人臉
- 人臉檢測/跟蹤
- 關鍵點定位
- 姿态估計
- 人臉識别
- 人臉聚類
- 性别識别
- 年齡估計
- 表情識别
- 活體檢測
- 閉眼檢測
- 口罩檢測
- 人臉質量評估
- 文檔
- 印刷體檢測/識别(OCR)
- 手寫體檢測/識别(HCR)
- 自然場景識别(NCR)
- 文檔布局識别
- 文檔重建
- 票證類識别
- 表格識别
- 人體
- 人體檢測
- 姿态估計
- 行人重識别
- 行人追蹤
- 手勢識别
- 人流量統計/人群密度分析
- 動作行為識别
- 人像分割
- 屬性分析
未來趨勢- 視頻
- 3D(VR/AR)
- 多模态:融合文本、音頻、視覺信息
- 細粒度理解(分割、系列度分類)
- 大規模數據預訓練(例如:GPT-3)
, 更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!
查看全部