tft每日頭條

 > 科技

 > 通過ai如何分析文檔内容

通過ai如何分析文檔内容

科技 更新时间:2024-09-10 21:17:32

編輯導語:AI在現實中的應用有很多,你有沒有想過,它還可以進行文本糾錯呢?傳統的校對既耗時又枯燥,通過AI糾錯,不僅能更快完成,還能提高準确度。那麼AI“文本糾錯”背後的原理是什麼呢?和我一起看看吧!

通過ai如何分析文檔内容(AI應用實例分析文本糾錯)1

前面跟大家分享了AI開放平台的相關内容,之後想圍繞AI應用實例這塊跟大家分享交流,這節主要講述跟NLP相關的一個應用實例——“文本糾錯”。

一、背景

雖然這幾年短視頻在内容傳播方面發展得很火,但是文稿仍然占據重要地位。而文稿傳播最重要的一點就是信息的準确性,尤其是一些有知名度的正式平台更是會在文稿發送前進行校對修正。

傳統的人工校對工作量是非常大的,一篇5000字的文稿完成校對差不多需要1-2個小時,對于校稿人員來說既耗時又枯燥。有一家内容平台就提出,希望我們通過AI能力提供快速校對工具,主要針對中文文稿,幫助校稿人員和編輯人員減少内容錯誤。

為了滿足該需求,我們基于NLP技術提供了文本糾錯服務。

二、關鍵技術

文本糾錯中用到的技術的前世今生在這不過多介紹了,目前文本糾錯的主流方向還是使用機器學習的方式來完成,其中需要用到的核心技術主要包括語言知識學習、上下文理解和知識計算。

  • 語言知識學習:可以理解為是對語言規則等先驗知識的學習,通過學習詞法、句法等規則進行語言模型構建,例如中英文的主謂賓結構就是不一樣的。
  • 上下文理解:是指分析錯誤點上下文語境和語義,從糾錯候選中選擇最合适的。尤其是中文,相同的詞彙在不同語境中往往表達不同的含義。
  • 知識計算:知識計算主要包括關聯知識計算和文本理解,關聯知識主要是通過對全局知識的統計來實現糾錯,可以是局部不完整語句的補充。文本理解是通過統計理解全局句子内容,解決低頻領域知識的泛化問題。
三、産品設計

1. 應用場景

(1)用戶場景:審稿或者編輯人員輸入中文文字信息,系統自動糾錯,并給出修改建議,審稿人員對錯誤快速修訂。

(2)應用邊界:

  • 支持用詞錯誤檢測,針對音近、形近的錯字和别字進行糾正
  • 支持句子級錯誤檢測,主要是針對句子中出現的多字、少字等錯誤,相對難度校大。
  • 支持場景類錯誤糾正,這類錯誤需要具備一些特定領域的知識才能識别糾錯,所以盡量支持。

2. 産品定位

  • 産品定位:為應用工具型産品,實現中文文本自動糾錯功能。
  • 用戶定位:滿足兩類B端用戶,第一類針對具備自主的文稿編輯工具,提供API服務,與現有系統進行改造融合;第二類是針對缺少文稿編輯工具的用戶,提供web頁面功能。

3. 産品業務流程

産品核心業務流程主要是産品端和算法端的交互,具體業務流程如下:

通過ai如何分析文檔内容(AI應用實例分析文本糾錯)2

4. 産品功能設計

(1)頁面功能設計

頁面核心功能主要包括如下:支持内容上傳、内容審查、結果确認和内容下載。

通過ai如何分析文檔内容(AI應用實例分析文本糾錯)3

主要頁面設計如下:

通過ai如何分析文檔内容(AI應用實例分析文本糾錯)4

(2)API接口設計

包括内容糾錯請求接口和結果回調接,分别用于内容審查糾錯和結果返回,以下描述主要的輸入和輸出參數:

  • 輸入:接口鑒權、文本内容、文本編碼格式等。
  • 輸出:文本分析結果,包括源文本、糾錯文本、文本位置,置信度。

5. 評估指标

産品上線前,需要對産品的性能進行評估,主要包括三個指标:誤報率、召回率和處理時間。

  • 誤報率:代表正确的句子被改錯的比率,等于正确句子被糾錯的個數/正确句子的個數。
  • 召回率:代表錯誤的句子被全部糾正的比率,等于含有錯誤的句子被改正的數量/所有含錯誤的句子數量。
  • 處理性能:代表處理多少個字符的耗時,單位是千字耗時,s/千字符。
四、結論

文本糾錯是NLP非常基礎的場景應用,但是實際業務價值卻是很大的。在具體業務場景應用方面不僅可以用在在媒體編輯、電子病曆等輸入文本糾錯,還可以應用于語音搜索、客服問答等業務。

本文由@Eric_d 原創發布于人人都是産品經理,未經許可,禁止轉載

題圖來自 Unsplash,基于CC0協議

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved