簡介:gImageReader是一個GUI軟件,實現利用tesseract OCR引擎(Tesseract本身是命令行工具)從Linux中的圖像和PDF文檔中識别文本。
概述
Tesseract最初是由惠普開發的,然後在2006年開源。你可以用OCR(光學字符識别)引擎掃描圖片或文件(PDF)中的文本。默認情況下,它可以檢測多種語言,并且還支持通過Unicode字符進行掃描。
gImageReader特性1.由于不知道gImageReader在軟件倉庫中的确切名字,終端輸入以下命令進行查詢,發現有多個版本,我安裝的Qt版本。
sudo pacman -Ss gImageReader
2.終端輸入以下命令進行安裝
sudo pacman -S gImageReader-qt
3.安裝完成出現如下圖标表示安裝成功。
4.安裝OCR引擎,執行以下命令
sudo pacman -S tesseract-data-eng tesseract-data-chi_sim
#安裝的tesseract-data-eng用于識别英文
#安裝的tesseract-data-chi_sim用于識别簡體中文
一、打開軟件出現如下界面
上圖中:
1處用來加載待識别的圖片
2處用來選擇圖片中的識别區域
3處用來切換識别文字的語種,可以識别漢語、英語、英漢混合
4處用來顯示識别結果
二、下圖為識别效果圖,更多功能自行探索。
番外篇
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!