tft每日頭條

 > 生活

 > 計算機編碼知識梳理

計算機編碼知識梳理

生活 更新时间:2024-07-06 04:40:02

哈喽,大家好!我是土豆,今天呢,我們來聊聊計算機編碼那些事。

在開始之前,我想向大家介紹一下什麼是編碼。

編碼呢說到底就是信息從一種形式或格式轉換為另一種形式的過程,簡單來講就是語言的編譯過程。也就是說用一種形式代替了另一種形式。

例如我們熟知的摩斯密碼就是用兩種基本信号:短促的點信号“·”(讀“滴”)和保持一定時間的長信号“—”(讀“嗒”)來對26個字母進行編碼,從而實現了信息的編譯過程。

計算機編碼知識梳理(計算機編碼那些事兒)1

莫斯密碼

其實我們這裡的計算機編碼和莫斯密碼相似,隻不過我們這裡采用了二進制數來對字符進行了編碼。

由于我們每個人都可以制定自己一套(當然了這也叫編碼),而如果我們大家都想彼此通信的話,就必須使用相同的編碼規則,于是美國有關組織就出台了ASCII編碼。(計算機最先是人家發明的嘛,這個可以理解)。

ASCII 碼使用指定的7 位或8 位二進制數組合來表示128 或256 種可能的字符。标準ASCII 碼也叫基礎ASCII碼,使用7 位二進制數(剩下的1位二進制為0)來表示所有的大寫和小寫字母,數字0 到9、标點符号,以及在美式英語中使用的特殊控制字符。

計算機編碼知識梳理(計算機編碼那些事兒)2

ASCII碼

但是,随着科技的快速發展,這裡就出現了問題:在英語中這些編碼當然可以解決所用的問題,但是世界上語言那麼多,其他的語言怎麼辦?

為了解決這個問題,我們對編碼進行了兩次擴編:1981年的IBM擴展字符集擴編和“ANSI字符集”擴編。

事實證明,别人是靠不住的,盡管進行了兩次擴編,我國的漢字編碼并沒有得到很好的解決,于是我們便制定了屬于我們自己的“編碼”:GB2312-80 标準和GBK 編碼标準。

GB2312-80 是 1980 年制定的中國漢字編碼國家标準。共收錄 7445 個字符,其中漢字 6763 個。GB2312 兼容标準 ASCII碼,采用擴展 ASCII 碼的編碼空間進行編碼,一個漢字占用兩個字節,每個字節的最高位為 1。

但是這次編碼并沒有覆蓋我們所有的漢字,于是我們在1995年我們又制定了GBK 編碼标準。這次編碼我們兼容了GB2312、GB13000-1、BIG5 編碼中的所有漢字,使用雙字節編碼,編碼空間為 0x8140~0xFEFE,共有 23940 個碼位,其中 GBK1 區和 GBK2 區也是 GB2312 的編碼範圍。收錄了 21003 個漢字。

不過這次編碼雖然漢字達到了2萬多個,但對于我國的藏文、蒙古文并沒有納入進去,為了有效解決這個問題,我們又對編碼進行了擴編,這次擴編包含多種我國少數民族文字(如藏、蒙古、傣、彜、朝鮮、維吾爾文等多個文字,光是漢字就有七萬餘個,這就是GB18030編碼标準。

至此,我們的問題才得到了有效的解決。

不過呢,為了各國的交流,我們又弄出了一個新的标準,即UniCode。

統一碼(Unicode),也叫萬國碼、單一碼,是計算機科學領域裡的一項業界标準,包括字符集、編碼方案等。Unicode是為了解決傳統的字符編碼方案的局限而産生的,它為每種語言中的每個字符設定了統一并且唯一的二進制編碼,以滿足跨語言、跨平台進行文本轉換、處理的要求。

我們常用的UTF-8就屬于統一碼的一種。

好了,今天我們就先分享在這裡,由于我也是剛剛接觸不久,所以有些東西可能介紹的不太準确,歡迎大家來指正!

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved