ai生成詩句?不知道你有沒有印象,此前一位長着大圓臉、招風耳,身着黃色僧袍的“賢二”機器僧,曾因呆萌的外表和 “我去問問我師父”等口頭禅“霸占”了不少社交平台在12月20日由騰訊發起的2020 Techo Park開發者大會分論壇上,也迎來了一位特殊的演講嘉賓和“賢二”一樣,這位嘉賓——賢超法師也來自北京龍泉寺,我來為大家講解一下關于ai生成詩句?跟着小編一起來看一看吧!
不知道你有沒有印象,此前一位長着大圓臉、招風耳,身着黃色僧袍的“賢二”機器僧,曾因呆萌的外表和 “我去問問我師父”等口頭禅“霸占”了不少社交平台。在12月20日由騰訊發起的2020 Techo Park開發者大會分論壇上,也迎來了一位特殊的演講嘉賓。和“賢二”一樣,這位嘉賓——賢超法師也來自北京龍泉寺。
賢超是北京大學物理學院凝聚态物理研究所碩士,現在是北京市海澱區龍泉寺藏經辦公室主任。他透露,自己之所以會關注到人工智能,和阿爾法狗戰勝李世石不無關系。從那時候起,賢超開始嘗試将人工智能和自己研究的OCR(識别、獲取圖像等文件上的文本資料)以及自動标點相結合。
賢超法師在演講中。
“在圍棋領域,人類已經一敗塗地。我們中華文明非常重視文字記錄,文獻古籍承載了我們民族的記憶,那麼我想,文獻古籍會不會再次成為人類的滑鐵盧?AI如此‘不講武德’,我們人類如何應戰?” 賢超說。
賢超首先介紹了自動标點技術。所謂自動标點,是指在沒有人工幹預的前提下,根據算法給古籍文本自動标注現代中文标點的技術,這主要是為了方便現代讀者閱讀。
他說,和現代标點不同,古代的标點又稱句讀,大體相當于隻有逗号(或頓号)和句号。現代标點則分為兩類,一類是标号,比如雙引号、單引号、書名号等;第二類則是點号,比如句号、問号、感歎号等等……根據統計,大約每五到六個漢字就需要加一個點号,其中逗号、句号、冒号等出現頻率較高。
古文标點的出現頻率。
賢超指出,标點符号還具有可替代性,因為不同的人可能會有不同的标注方法,其中分号和頓号的可替代性最強,也就意味着使用的必要性最弱,反之亦然。
标點符号可替代的統計。
據他介紹,人工智能首次被應用到這個領域,隻是用于自動斷句,也就是給古文加句号,但賢超認為這個做法“是比較保守,比較學術性的”。後來,賢超說,自己的團隊将深度學習運用到了自動标點上。
那麼效果如何?賢超提到,如果是人工獨立完成的标點,作品之間的相似度應該是在80%左右,相似度過高則會有抄襲的嫌疑。根據這個标準,賢超團隊研發的Transformer所标注的結果和人類的标注結果“幾乎已經無法區分”。
對于Transformer自動标注結果的評價。
賢超還認為,自動标點還有一定的靈活性和規範性。以“谛聽谛聽善思念之”這八個字為例,賢超說,人類至少有16種不同的添加标點符号方式,但自動标點隻給出了六種方案,也不會“過于單一”。
自動标點的标注結果。
在講述自動标點技術之後,賢超開始講解超分辨率與古籍圖像增強技術。他認為,如果能實現“所見即所出”,就是将屏幕上人眼所能看到的圖像,“重建”到符合出版的要求,會大大促進古籍的傳播和普及。
此外,這也有利于存儲古籍圖像。賢超介紹道,古籍圖像的存儲成本非常巨大,而超分辨率實際上是一個非常高效的解壓技術,即使保存的是很低分辨率的圖像,也可以随時重建成一個高清晰度的圖像,那麼“它存儲起來會非常非常經濟。”
針對這項技術,賢超在現場播放了幾個視頻來展示團隊所開發的工具。從視頻中可以看出,這個工具可以比較快速地獲取、識别、定位圖片上的古籍文本,并為其添加标點符号,甚至能将文言文和白話文進行“對齊”,從而輔助文白翻譯。此外,它還具有搜索功能,并能将搜索結果按時間等分類展示。
對于未來的研究方向,賢超希望能打通“移動和桌面”。他坦言,現在這類應用主要是電腦端的,能在手機上使用的并不多。此外,他還希望打造本地化的應用,現在大多數的功能需要聯網才能運行,但是很多學者對于知識産權非常敏感,并不願意将文本放到服務器上處理。
采寫:南都記者潘穎欣
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!