引玉之磚成語接龍?表收羅來的成語整理了半小時,不到500條成語詞條,這樣的進度很緩慢,緩慢的原因在不停地查重上,重複多了,效率就沒了看來人工處理這個的确耗費時間,放棄這個方法,現在小編就來說說關于引玉之磚成語接龍?下面内容希望能幫助到你,我們來一起看看吧!
表
收羅來的成語整理了半小時,不到500條成語詞條,這樣的進度很緩慢,緩慢的原因在不停地查重上,重複多了,效率就沒了。看來人工處理這個的确耗費時間,放棄這個方法。
另外一個方法是,掃描詞典目錄,再進行文字識别,識别後再處理。暫時不考慮成語解釋說明的問題,可迅速先将每個詞條整理出來,還不用擔心錯别字,再耐心等三五天,詞典就會到,雙十一的餘溫未減,物流緩慢。
等待之餘,設計了一個主表和若幹副表,用于完成這次的“成語接龍”任務。
主表的内容是成語詞條和它本身特性的内容,副表包含成語的解釋和說明,若後續還有一些要擴展的内容,也可以使用類似的副表來完成。
主表的字段如下:
序号,上一級序号,成語詞條,成語長度,首字聲母,首字,尾字,尾字聲母,進表時間
SN:序号。類型,唯一序号,主鍵,不允許重複,不為空。
TSN:上一級序号。類型,整形,允許重複,不為空。
LName:成語詞條。類型,字符,可重複,可為空,長度40。
LNum:成語長度,類型,整型,默認值0。
LFC:首字聲母,類型,字符,長度2,可空。
LF:首字,類型,字符,長度2,可空。
LEC:尾字聲母,類型,字符,長度2,可空。
LE:尾字,類型,字符,長度2,可空。
pTime:進表時間,類型,日期時間。
說明:作為主表,序号和上一級序号是相同的,可作為是否可用的标志,各個字段的允許長度暫時是這樣規定,未來視情況再做修整合改變。
副表字段如下:
序号,上級序号,成語解釋,成語來源出處,類别,進表時間
SN:序号。類型,唯一序号,主鍵,不允許重複,不為空。
TSN:上一級序号。類型,整形,允許重複,不為空。
LS:成語解釋,類型,字符,長度100,可為空,可重複。
LT:成語來源出處,類型,字符,長度100,可為空,可重複。
Ltype:類别,整形,允許重複,默認值為0。
pTime:進表時間,類型,日期時間。
說明:作為副表,序号和上一級序号是不同的,TSN對應主表的SN,所以它是可重複的。
當Ltype為0時,LS字段代表的是“成語解釋”,LT字段代表的是“成語出處”,若後續想到另一類别,可将Ltype為1,再想出别的類别,Ltype為2,以此類推。用這樣的方法可完成擴充的企圖。
考慮到主表中有成語首字的聲母,額外還需要再建一個表,這個表的内容是單字,和其對應的聲母,表字段規劃如下:
序号,單字,聲母,排序
SN:序号。類型,唯一序号,主鍵,不允許重複,不為空。
Words:單字,類型,字符,長度2,允許重複,不為空。
Ws:聲母,類型,字符,長度2,允許重複,可為空。
Wl:排序,類型,整形,默認值0。
說明:
這個表需要将每個字對應的聲母匹配上,漢字按使用程度分一級字庫二級字庫,也就是說,這個表至少要包含一級字庫裡所有的漢字,沒記錯的話,2312個。簡體字庫GB2312。
整理這個表也要耗費一些時間,争取在詞典到來之前完成它,唯一要注意的是多音字的問題,比如“長”這個字,“長春市”這裡的“長”的聲母是“c”,“長大了”這裡的“長”的聲母是“z”,這時候,“z”後面的排序裡面要寫上1,後續還要對成語讀音進行校正。
好啦,今天先寫這三個表的内容吧,先完成漢字與聲母的對應表,加油,加油吧!
表(完)
古瓦2022.11.15
--------------------
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!