最近踩坑了後端的文檔生成,本想寫篇相關的實踐總結,忽然感悟到電子文檔的魅力,尤其以“字符編碼模型”為最,特此進行研究并寫下此文。
不了解Unicode、UTF-8、UTF-16、GBK,搞不清楚碼位、碼元等概念,或者經常遇到亂碼問題的小夥伴都可以在本文找到答案。
簡述字符編碼
相信大家一定對上面的場景不陌生(„ಡωಡ„),這是一個經典的字符編碼錯誤導緻的亂碼問題。而解決的方法也很簡單,在打開文件的時候指定正确的編碼方式即可。如圖中的文本文件 a.txt 采用 utf-8 編碼,指定該編碼方式打開并讀取文本内容如下圖。
解決方案很簡單,但方案背後所蘊含的知識可不簡單,這就是“字符編碼”。衆所周知,一個字符類型(char)長度為 1 字節,由多個 char 組成的數組(約定以 \0 結尾)就是字符串。問題來了,一個字節隻能表示 2828 (256)個數字,如何表示百倍于它的漢字呢?上面用到的 utf-8 又是什麼?為什麼不指定它就會亂碼呢?
想要表示漢字很簡單,一個字節不夠,那再來個字節呀。用多個字節表示字符,又涉及具體用幾個字節、如何高效利用空間、要表示範圍足夠大同時靈活可拓展等問題,因此提出了以 utf-8 為代表的字符編碼的方法來告訴計算機如何解析字節流并将其轉化為字符流。由于大部分字符編碼的方法不互相兼容,用與編碼時不同的編碼方案解析它自然就會出錯或者解析成錯誤的内容。
下面給出維基百科中的定義:字符編碼(英語:Character encoding)是把字符集中的字符編碼為指定集合中某一對象(例如:比特模式、自然數序列、8位組或者電脈沖),以便文本在計算機中存儲和通過通信網絡的傳遞。
概念可能不夠具體,狹義來說,字符編碼就是将字符(包括英文字母、漢字等)編碼為計算機可以存儲與解析的字節流形式,同時也支持從字節流解析回字符的形式。這是對現實生活中用到的文字與符号的建模,将它們用一種計算機可以理解的方式表示,來方便計算機處理。
為了标準化字符編碼的過程,人們對編碼設計的過程進行劃分,提出了字符編碼的抽象架構模型,共有 5 層,分别解決了字符編碼流程中的五個具體細節問題,接下來進行詳細介紹。
字符編碼模型設計字符編碼,根據先後順序可以分為以下五個步驟:
基于上述五個步驟,定義:
字符編碼模型=抽象字符表 編碼字符集(CCS) 字符編碼表(CEF) 字符編碼方案(CES) 傳輸編碼語法字符編碼模型=抽象字符表 編碼字符集(CCS) 字符編碼表(CEF) 字符編碼方案(CES) 傳輸編碼語法
五層模型1. 抽象字符表(Abstract character repertoire)抽象字符表定義了當前的字符編碼所支持的所有抽象字符的集合。
抽象字符是指人從視覺上認為不同而從含義邏輯上認為相同的一組實際字符的集合,可認為該集合中的字符表示的含義相同。一層含義是,一個漢字有楷、行、草、隸等多種形體,但都表示同一個漢字,如下圖。另一層含義是,在 Unicode 中西班牙語的 ñ 由 n 和 ~ 兩個字符組成,雖然看上去是一個,但是兩種不同的含義。
抽象字符表有些标準是封閉性的,抽象字符集合不會改變(包括: ASCII、ISO 8859 系列等);有些标準是開放性的,可以不斷将新的字符添加到标準中(比如:Unicode)。
2. 編碼字符集(CCS: Coded Character Set)編碼字符集在第一層抽象字符集的基礎上,為每一個字符分配一個唯一的數字編碼,讓抽象的字符通過數字的方式表示出來。
編碼字符集是一個映射過程,将抽象字符集中的每一個字符一對一地映射到一個坐标(若是一維就是單個整數)上,而每一個映射到的坐标(也就是數字編碼)稱為碼位(也稱碼點),每個字符所占的碼位稱為碼位值。所以,也可以稱:編碼字符集就是把抽象字符集中的每個抽象字符映射為碼位值。
用來表示碼位的坐标空間的維度稱之為編碼空間,可用一組數字、存儲單元尺寸或者一些特殊形式表示。例如:GB 2312 漢字編碼空間可表示為 94 × 94;ISO-8859-1的編碼空間可表示為 8 比特或 256;Unicode 采用行、列、面的三維描述表示碼位值。
這裡特别講解一下 Unicode(統一碼)的編碼字符集。每個 Unicode 字符編碼可以表示為:U 6個十六進制數字,比如:'0' 表示為 '\U000030'。Unicode 采用平面 16-bit 編碼方式,每個平面的編碼空間為 2^16(用'\U000030'的後四位表示,使用兩個字節),共 17 個平面(用'\U000030'的前兩位表示,使用一個字節),理論上能表示的字符數 = 平面數(17) × 平面編碼空間大小(2^16) = 1114112。17個平面編号為0-16(0x00-0x10),如下圖。
日常中常用的字符都定義在 0 号平面,該平面的碼點表示時可以省略前兩個十六進制位的平面号。平面中不是每個位置都定義了對應的字符,還有不少空間保留或作特殊用途。
每個抽象字符在 Unicode 中采用唯一且不可變的字符名稱來表示,如:拉丁字母 K 在 Unicode 中的字符名稱是“Latin Capital Letter K”,碼點是 004B。
3. 字符編碼表(CEF: Character Encoding Form)字符編碼表将數字表示的碼位值轉換為整型值序列(由多個固定有限長度的整形數據類型組成)表示。
用來表示碼位的有限長度整形,是計算機表達字符編碼(碼位值)的單位,稱為編碼單元,簡稱碼元。
定義字符編碼表有兩步:
定義碼元通常采用 8 bit(字節)的倍數。碼元的存在,規整了表示不同字符的存儲方式,避免在一串字符中用各種長度的整形混合表示。在計算機中采用字節的倍數存儲與處理也匹配其存儲、傳輸和處理的單位,對應計算機中的數據類型。
定義用碼元表示碼位值的規則,分為定長編碼和變長編碼。定長編碼就是自身到自身的映射,如 ASCII 的編碼 0-127,對應 7 bit,直接用 1 字節表示。UTF-32是 Unicode 對應的定長編碼方案,字節内容一一對應碼點。
變長編碼基于某種規則将碼位值根據需要映射到不同個數的碼元序列上。
UTF-8此處以 Unicode 最通用的字符編碼表 UTF-8 進行說明。UTF-8 是 Unicode 的一種邊長編碼,碼元為 8 bit,采用 1 - 4 個碼元(字節)表示一個字符,根據字符碼位值的不同變換表示長度。編碼規則如下:
Unicode 十六進制碼點範圍 |
UTF-8 二進制 |
0000 0000 - 0000 007F |
0xxxxxxx |
0000 0080 - 0000 07FF |
110xxxxx 10xxxxxx |
0000 0800 - 0000 FFFF |
1110xxxx 10xxxxxx 10xxxxxx |
0001 0000 - 0010 FFFF |
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx |
UTF-16 則采用 16bit(兩個字節) 碼元,編碼規則為:基本平面的字符占用 2 個字節,輔助平面的字符占用 4 個字節。而确定是用一個碼元還是兩個碼元是通過基本平面中 U D800 - U DFFF 的編碼留白實現的。
輔助平面的字符位共有 2^20 個,因此表示這些字符至少需要 20 個二進制位。UTF-16 将這 20 個二進制位分成兩半,前 10 位映射在 U D800 到 U DBFF(空間大小 2^10),稱為高位(H),後 10 位映射在 U DC00 到 U DFFF(空間大小 2^10),稱為低位(L)。這意味着,一個輔助平面的字符,被拆成兩個基本平面的字符表示。
第二層的編碼字符集和該層字符編碼表是多對多關系,一種編碼方式也可應用多種字符集,如:EUC 編碼方式可以用于 GB 2312,也可以用于 JIS X 0208(一種日語字符集編碼标準);一種字符集何以對應多種編碼方式,如:Unicode 對應UTF-8、UTF-16、UTF-32等編碼方法,如下圖所示。
例如,“漢字”這兩個中文字符的 Unicode 碼位值是 0x6C49 和 0x5B57,可用碼元對應整數類型的數組表示為
4. 字符編碼方案(CES: Character Encoding Scheme)
字符編碼方案将碼元映射到字節序列。
抽象字符的碼位值可以通過具體數據類型的碼元表示了,但由于這些數據類型可能需要多個字節才能表示,我們還沒有解決碼元如何用字節序列表示。碼元映射為字節序列,也就是将特定的整數類型映射到對應的字節序列。一般講的就是字節序,也就是大端和小端(當然,還有一些更複雜的)。
大端:低位地址存放高位數據,高位地址存放低位數據。與人的一般書寫習慣一緻,網絡字節序要求使用大端。
小端:低位地址存放低位數據,高位地址存放高位數據。
如:數字 0x0102,大端存儲為 [0x01, 0x02],小端存儲為 [0x02, 0x01]。
在編程中,我們大多時候無需關系字節序,而是直接使用具體的數據類型,字節序作為操作系統或硬件的内部實現對用戶透明。但是文本不僅需要在本地内存中讀寫,還要再磁盤中存儲并在多個異構系統中傳閱,這就需要保證字節序一緻或者讀取到文本所使用的字節序。因此,為了表示碼元的字節序列在讀寫時的一緻性,需要定義字符編碼方案。
解決字節序問題,一般有兩種方案:
- 強制規定使用某種字節序。如網絡傳輸強制要求網絡字節序使用大端序。
- 使用字節序标記說明當前使用的字節序。字符集編碼一般采用這種方案。Unicode 編碼方案中有個叫 BOM(Byte Order Mark)的東西,就是用來做這事的。
當然,對于碼元為單字節的情況下,不存在字節序問題,如 UTF-8,這也是 UTF-8 廣泛使用的原因之一。但一些 UTF-8 文件也存在 BOM 頭,但這不是必須的,隻是用來标識該文件采用 UTF-8 編碼。
5. 傳輸編碼語法(transfer encoding syntax)傳輸編碼語法用于處理第四層字符編碼方案提供的字節序列,主要包括變換傳輸形式和壓縮字節序列。
變換傳輸形式指将字節序列的值映射到一套更受限制的值域内,來滿足傳輸環境限制。如:Email傳輸采用Base64或者quoted-printable,都是把8位的字節編碼為7位長的數據。
壓縮字節序列就是指一些無損字節序列壓縮技術。如:LZW或者行程長度編碼。
模型綜述從整體上看,字符編碼模型是對人類理解的抽象字符到計算機實際表示、存儲和傳輸字符的數據形式的建模過程。
第一層抽象字符表是對人類理解的抽象字符的總結,明确了抽象字符範圍。每個抽象字符可能字形不同(寫法不同),在不同語境下字符表示的含義不同,但從字符本身的角度邏輯相同,并采用字符名稱等方式唯一的标識該字符。
第二層編碼字符集則為抽象字符編号,将抽象字符表示成數學形式,類似模電和數電的關系,因為隻有數字才能進一步保存到計算機。但注意,這一層并不涉及計算機,數學編号也是人類意義上的編号,但将形式上的符号抽象為數學編号表示,是用計算機建模現實事務的關鍵一步。
第三層字符編碼形式是真正用計算機表示字符的第一步,這裡采用計算機的抽象數據類型(碼元)來表示人類對字符的抽象描述(數學編碼)。
第四層字符編碼方案則進一步将用計算機的抽象數據類型表示的字符映射到計算機真正的底層表示——字節流上。到這一層,字符已經完全轉化為計算機的表示方式,計算機可以基于上述模型棧(其順序處理的形式可以理解為棧)對字符進行讀寫或其他操作,并在計算機底層表示和人類的抽象字符間相互轉化。
第五層傳輸編碼語法是對計算機底層數據流額外的附加處理,來提升傳輸效率或滿足傳輸要求。
上述字符編碼模型可以進一步總結為一種計算機建模的通用思想:明确現實事物、建模事物、用計算機數據類型表示、用計算機底層字節序列表示、對字節序列的優化處理。
字符與字形在前面的學習中,我們已經知道了通過字符編碼模型将抽象字符轉換為計算機底層數據結構的過程,好像已經圓滿了。但請你重新審視你正在讀的文字中的字符,并回憶剛剛所學,字符編碼模型是否是完整的一條從你所見的字符到計算機底層表示的鍊路?
沒錯,缺少了字形。在抽象字符集中我們強調,字符集中的字符是邏輯上的抽象字符,而不是我們直接看到的字符,每個字符在不同的書寫方式下都有多種字形表示。那麼,現在是如何表示字形的呢?
字形描述,就是字體。字體描述了字符的形狀,告訴了計算機如何“畫出”某個字符,描述方式一般有散點和矢量。
由于本文重點在字符編碼模型,所以在此不進行更詳細的介紹。
舉個實踐例子
s := "hi你好 "fmt.Println("runes: ")for _, r := range s { fmt.Printf("%v ", r)} fmt.Println("\nbytes: ")for i := 0; i < len(s); i { fmt.Printf("%v ", s[i])}fmt.Println("\n\nlen(s): ", len(s))
提問,上述 go 代碼的輸出結果是什麼?
runes:104 105 20320 22909 32 bytes: 104 105 228 189 160 229 165 189 32 len(s): 9
你猜對了嗎?
這就是一個字符的碼位(rune)和字節序列的對比使用場景。for-range 遍曆的是字符串中每一個字符的碼位值。而字符串實際采用 byte 數組存儲,通過 len 函數獲取長度已經根據下标的索引都是讀取字符底層的字節序列表示。也就是說,go 中字符串本質上就是個 byte 數組,正好存儲字符的底層字節表示,但提供了一個解析 byte 數組為字符的視圖,讓我們可以遍曆讀取字符串中的字符。
python 中,也可以通過編碼和解碼,在字符串和 bytes(字節數組)間轉換。
後記字符編碼是電子文檔的基礎,也是編程的基礎。隻有了解了字符編碼,才能對最常用的數據類型之一——字符串使用的遊刃有餘。
之後會繼續研究電子文檔,并寫兩篇 pdf、word、xlsx 等場景文檔的生成、修改和底層格式設計的文章。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!