漢字編碼标準GB18030-2022版,收錄漢字87887個,比2005版增加17643個生僻漢字
汗青 整理
GB為國家強制性國家标準,GB 18030《信息技術 中文編碼字符集》是我國繼GB 2312-1980和GB 13000.1-1993之後最重要的漢字編碼标準。GB 18030的總編碼空間超過150萬個碼位,為解決人名、地名等用字問題提供了方案,為漢字研究、古籍整理等領域提供了統一的信息平台基礎。
那麼,我國漢字編碼标準有着怎樣的發展曆程呢?
1980年3月9日,國家标準總局發布了我國第一個漢字編碼字符集标準《信息交換用漢字編碼字符集 基本集》,即GB 2312-80,共收了6763個漢字及常用符号,其中一級漢字3755個,二級漢字3008個,奠定了中文信息處理的基礎。
1993年12月30日,全國信息技術标準化技術委員會發布GB 13000.1-1993《信息技術 通用多八位編碼字符集(UCS)第一部分:體系結構與基本多文種平面》。該标準采用ISO/IEC國際标準ISO/IEC 10646-1:1993,采用了全新的多文種編碼體系,收錄了中、日、韓20902個漢字,是編碼體系未來發展方向。
1998年10月,信息産業部電子四所等技術人員組成标準起草組,提出了标準制定原則——與GB 2312信息處理交換碼所對應的事實上的内碼标準兼容,在字彙上支持GB 13000.1-1993的全部中、日、韓(CJK)統一漢字字符和全部CJK擴充A的字符,并且确定了編碼體系和27484個漢字,形成兼容性、擴展性、前瞻性兼備的方案。
2000年3月17日,信息産業部和國家質量技術監督局發布GB 18030-2000《信息技術 信息交換用漢字編碼字符集 基本集的擴充》,收錄了27533個漢字。
2005年11月8日,中華人民共和國國家質量監督檢驗檢疫總局、中國國家标準化管理委員會發布GB 18030-2005《信息技術中文編碼字符集》,收錄了70244個漢字。
2022年7月28日,國家标準化管理委員會、工業和信息化部、國家語言文字工作委員會在京聯合召開《信息技術 中文編碼字符集》(GB 18030-2022)強制性國家标準發布宣貫會。新版《信息技術 中文編碼字符集》強制性國家标準将于2023年8月1日正式實施,共收錄漢字87887個,比GB 18030-2005,增加錄入了17643個漢字。
《說文解字》收單字9353個,《康熙字典》收單字47035個,《漢語大字典》收單字60370個,目前收單字最多的辭書是《中華字海》,收單字85568個。GB 18030-2022收字比《中華字海》多2319個。
據統計,漢字單字可達14萬個,而常用漢字3500個就夠用了,隻有古人名、古地名、古籍整理、文字考古等會遇到一些生僻字。漢字字庫的擴充,主要是為了特殊行業和研究人員方便,漢字改革永遠不會走“返古”“返繁”的複古道路。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!