tft每日頭條

 > 生活

 > 文字識别和處理技術

文字識别和處理技術

生活 更新时间:2024-07-05 20:20:02

文字識别和處理技術?作者:蘇芃(南京師範大學文學院副教授),我來為大家科普一下關于文字識别和處理技術?下面希望有你要的答案,我們一起來看看吧!

文字識别和處理技術(互聯網時代的文字錯訛)1

文字識别和處理技術

作者:蘇芃(南京師範大學文學院副教授)

近日,在網絡媒體上讀到一篇學術論文,其中引用《大唐新語》“終南捷徑”的典故說:“(盧)藏用指終南山謂之曰:‘此中大有佳處,何必在遠!’(司馬)承祯徐答曰:‘以仆所觀,乃仕宦快捷方式耳。’”繼而搜索“終南快捷方式”,“百度漢語”裡竟然收有這一詞條,釋義依據即是《大唐新語》。“終南快捷方式”顯然是“終南捷徑”之誤,這個錯訛在許多嚴肅的學術著作裡屢見不鮮,葉聖陶先生1914年發表過一篇文言小說《終南捷徑》,也被有些研究者誤作《終南快捷方式》。

究其原因,這一錯誤的産生與漢語詞彙的繁簡轉換有關。由于計算機專有名詞shortcut在内地和港台的翻譯不同,内地譯作“快捷方式”,港台譯作“捷徑”,因此在對這類譯詞進行繁簡轉換時,即使上下文不涉及翻譯用語,也會出現繁體字“捷徑”變成簡體字“快捷方式”的現象。

時值畢業季,在審讀各類論文時發現,除了單個漢字繁簡轉換不對應的常見錯誤(比如“皇後”誤成“皇後”、“千裡”誤成“千裏”),整個詞語轉換時發生的錯訛也大量存在,其中“終南快捷方式”這類由繁轉簡的訛變相對較少,更多的是由簡轉繁時帶來的訛誤,如:資料→數據、信息→資訊、申請項目→申請專案、數字化→數位化。更有甚者,如海内存知己→海記憶體知己、蔔算子→蔔運算元、途中奔馳→途中賓士、魯隐公元年→魯隱西元年。“資料”變成“數據”、“信息”變成“資訊”還并不影響文意,但“海内存知己”變成“海記憶體知己”就會讓一般讀者感到莫名其妙。這些錯誤的發生可歸因于内地與港台對同一事物的稱名不同,尤其涉及譯名分歧最多,于是按詞繁簡轉換時就會出現錯誤的關聯。類似現象,江慶柏先生《電腦自動轉換中文簡繁字産生的問題》(《古籍整理出版情況簡報》2014年第1期)一文已有揭示,但未引起足夠重視,各類出版物中繁簡轉換錯誤層出不窮。

實際上,互聯網時代的文字錯訛,除了繁簡轉換之誤,還有不少新的衍生類型。例如,因電腦、手機輸入法産生的錯訛。現今最常用的是拼音輸入法,由于輸入拼音後在候選項裡會有多組備選字詞,在選取時因操作不慎或者判斷失誤,會導緻文本中音近訛字的出現。同樣,使用形碼輸入法,如五筆字型輸入法,以及手寫輸入法等,會導緻形近訛字的出現。

此外,還有一類非常特殊的錯訛,因九宮格輸入而産生。九宮格是手機拼音輸入法最常用的一種鍵盤布局,将ABC……XYZ等26個字母分布在8個鍵位上,這樣一來,比如拼寫“早上”和“晚上”是完全相同的鍵位,在備選詞裡又毗鄰,容易導緻“早”“晚”混用的情況,這類不涉及漢字形音義關系的錯誤關聯在傳統書寫中不會發生。

再如,因OCR(Optical Character Recognition,光學字符識别)産生的錯訛。OCR的原理就是通過掃描紙本等載體上的文字,确定其形狀,然後根據計算機程序進行匹配識别轉譯成字符。簡而言之,就是把圖像上的文字轉換成文本字符。OCR軟件在許多領域應用廣泛,如果識别的對象本身是規範的排版文本,識别率非常高,人工校讀也簡便易行。但是在涉及古籍文本時,就容易發生形近而訛,加之人工校讀不仔細,會遺患無窮。比如幾年前,在全國各地售賣糖炒栗子的包裝上,常會看到闆栗簡介中援引《詩經》的“樹之棒果”,“棒果”是“榛栗”之訛,通過查檢發現,這可能是某篇學術論文在OCR時發生的錯誤,導緻網上關于闆栗的簡介以訛傳訛,最終傳播到了大衆生活中。

漢語文獻的文字訛誤類型,以形近而訛和音近而訛為主,從文字的書寫主體即人自身來看,形近而訛主要與視覺判斷有關,音近而訛主要與聽覺判斷有關。

筆者在以往的研究中還發現,書寫對象的特點也會帶來一定的影響。比如漢字中形聲字數量龐大,尤其進入楷書階段以後,形聲字比例大增,到了南宋已占漢字的90%以上,大量形聲字的存在,使得同一聲旁且形旁相近的文字最易發生訛混。如“楊(楊)”與“揚(揚)”,皆從“昜”聲,而形旁“木”與“扌”相近,整個字形尤為相似,且讀音相同,字義也多存相關性,于是在書寫與傳抄過程中,極易發生異變與混同。漢語中的訛字、異體字、通假字的孳生往往與形聲字這個特性有關。如今電腦拼音輸入法産生的錯誤,也是這一曆史問題的延續與變體,有時看似操作不慎,其實是因為受到形聲字這一特性的幹擾。再者,漢字的結構特點與書寫習慣也會影響文字的正誤,如古人直行豎寫,就會發生《戰國策》中“觸龍言”被寫成“觸讋”的錯誤。

可見,傳統文字錯訛的原因主要在兩個層面:一是書寫主體(書寫者)判斷疏失,一是書寫對象(漢字、文本等)特性幹擾,但是前文例舉的錯訛“終南快捷方式”、“早”“晚”混用、“樹之棒果”等,已超出了這兩個層面,它們有個共同之處,都和新型的書寫媒介有關。無論是繁簡轉換,還是九宮格輸入、OCR文字識别,錯誤的發生,都在這些中間環節。這讓我們意識到,互聯網時代書寫主體和書寫對象之間還存在着一個機器智能的媒介,新型文字錯訛本質上是機器智能帶來的副作用,要化解機器智能的不足和局限,隻有不斷提升技術工具性能,并且增加人工幹預。

面對新型文字錯訛,總體而言,要大力發展信息技術,如人工智能、大數據、構建知識關聯來解決新時代的新問題。以前文例舉的幾種錯訛類型而言,如繁簡轉換,可以在word軟件裡關閉“轉換常用詞彙”,隻按字轉換,不按詞轉換。由于一個簡體字對應多個繁體字,由繁轉簡時,一般較少出現訛誤,這種方法能夠有效規避“終南捷徑”轉成“終南快捷方式”的問題。但是由簡轉繁,這種方法又會帶來不少繁簡單字不對應的錯誤,必須輔以嚴格的校對。另一方面,需要通過更新技術手段解決詞彙在轉換過程中帶來的關聯錯誤,比如在計算機中建立繁簡詞表,并标明具體對應的時間與地域信息,如是中國古代的繁體字詞,還是港台當代的繁體字詞,進而構建曆時性的繁簡詞庫與共時性的繁簡詞庫。至于九宮格輸入、OCR文字識别等新型錯訛,目前除了技術革新,比如基于大數據的聚類分析,恐怕還得依靠人工校正。

當然,最徹底有效的規範手段,是加強語言文字知識的普及教育,從文字使用者角度樹立規範與責任意識,防患于未然。

《光明日報》( 2019年03月02日 12版)

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved