第二章漢字代碼體系_第1頁
已閱讀1頁,還剩90頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第二章 漢字代碼體系,蘇州大學(xué) 中文信息處理 公開課,內(nèi)容提要,ASCII碼及其擴(kuò)展中文信息在計(jì)算機(jī)內(nèi)的表示ISO/IEC 2022漢字編碼字符集GB2312-80BIG-5Unicode和ISO10646GBK和GB18030,1.1 ASCII碼及其擴(kuò)展,ASCII碼擴(kuò)展ASCIICJK-Roman,1.1.1 ASCII碼,1.1.1 ASCII碼,ASCIIAmerican Standard Code

2、for Information Interchange表示英文、數(shù)字及其常用符號和現(xiàn)有的英文鍵盤相對應(yīng)1991年ISO定義為ISO/IEC 646:1991信息交換用7-位編碼字符集(ISO 7-bit coded character set for information interchange),1.1.2 ASCII碼內(nèi)容,7位二進(jìn)制數(shù),定義128個字符:94個圖形字符(可顯示字符)‘0’-’9’:

3、30H-39H‘A’-’Z’: 41H-5AH‘a(chǎn)’-’z’ : 61H-7AH30個控制字符00-19H1個空格字符20H1個Del(刪除)符7FH,1.1.3 ASCII碼-布局,控制符,控制符,控制符,1.2 擴(kuò)展ASCII,8位表示擴(kuò)展128 256擴(kuò)展的字符集有16個定義:從ISO 8859-1到ISO 8859-16,分別定義了相應(yīng)國家的文字和符號。,,1.2.1 ISO 88

4、59內(nèi)容,ISO 8859第1至第16部分(Information Processing—8 Bit Single-Byte Coded Graphic Character Set)。定義新增的128個碼元。每個部分分別定義ASCII碼和其擴(kuò)展的字符集(針對不同拉丁語言) 。,,1.2.2 ISO 8859代碼空間圖,1.2.3 ISO/IEC 8859 舉例,ISO/IEC 8859-1 (Latin-1) - 西歐語言I

5、SO/IEC 8859-2 (Latin-2) - 中歐語言ISO/IEC 8859-3 (Latin-3) - 南歐語言。世界語也可用此字符集顯示。ISO/IEC 8859-4 (Latin-4) - 北歐語言ISO/IEC 8859-5 (Cyrillic) - 斯拉夫語言ISO/IEC 8859-6 (Arabic) - 阿拉伯語ISO/IEC 8859-7 (Greek) - 希臘語ISO/IEC 8859-8 (H

6、ebrew) - 希伯來語(視覺順序)ISO 8859-8-I - 希伯來語(邏輯順序)ISO/IEC 8859-9(Latin-5 或 Turkish)- 它把Latin-1的冰島語字母換走,加入土耳其語字母。ISO/IEC 8859-10(Latin-6 或 Nordic)- 北日耳曼語支,用來代替Latin-4。ISO/IEC 8859-11 (Thai) - 泰語,從泰國的 TIS620 標(biāo)準(zhǔn)字集演化而來。ISO/IE

7、C 8859-13(Latin-7 或 Baltic Rim)- 波羅的語族ISO/IEC 8859-14(Latin-8 或 Celtic)- 凱爾特語族ISO/IEC 8859-15 (Latin-9) - 西歐語言,加入Latin-1欠缺的芬蘭語字母和大寫法語重音字母,以及歐元(€)符號。ISO/IEC 8859-16 (Latin-10) - 東南歐語言。主要供羅馬尼亞語使用,并加入歐元符號。,1.3 CJK-Roman,

8、ASCII碼一樣,7位二進(jìn)制數(shù)編碼。收錄字符基本與ASCII碼一樣,個別字符作了調(diào)整。 符合本國使用需要貨幣單位 ($(美國)----- ¥(中國))中、日、韓字符編碼標(biāo)準(zhǔn):GB-Roman(中國ASCII碼字符集ASCII字符編碼標(biāo)準(zhǔn),代號為GB 1988-89);CNS-Roman(臺灣ASCII碼標(biāo)準(zhǔn),代號為CNS 5205-1989);JIS-Roman(日本ASCII碼標(biāo)準(zhǔn),代號為JIS X 0201-1

9、997);KS-Roman(韓國ASCII碼標(biāo)準(zhǔn),代號為KS X 1003:1993)。,CJK-Roman-特殊字符,內(nèi)容,ASCII碼及其擴(kuò)展中文信息在計(jì)算機(jī)內(nèi)的表示ISO/IEC 2022漢字編碼字符集GB2312-80BIG-5Unicode和ISO10646GBK和GB18030,2.1 概述,最早在計(jì)算機(jī)內(nèi)表示中文信息:IBM、富士通、日立等計(jì)算機(jī)生產(chǎn)廠家。采用的編碼形式互不兼容。為了通用性,ISO、I

10、EEE以及各個使用漢字的國家和地區(qū),都制定了各種各樣的漢字編碼字符集。漢字代碼:漢字在計(jì)算機(jī)內(nèi)表示。通過擴(kuò)充ASCII碼編碼長度實(shí)現(xiàn)ASCII碼(擴(kuò)展)最多256個碼位漢字?jǐn)?shù)量成千上萬如何放?,2.1.1 漢字代碼,漢字代碼是真實(shí)世界的漢字信息在計(jì)算機(jī)系統(tǒng)中的最基本表示。根據(jù)在計(jì)算機(jī)內(nèi)部使用的目的和存儲的方式,漢字代碼有各種不同的形式和稱謂:交換碼機(jī)內(nèi)碼 輸入碼字形碼……,2.1.2 漢字交換碼,用于信息交換的漢字

11、代碼。雙字節(jié)、3字節(jié)和4字節(jié)。一般不能直接用于信息處理例如,在GB2312中,“碼”字的交換碼為十六進(jìn)制的42H/6BH。無法與ASCII碼的“Bk”相區(qū)別。在實(shí)際使用中,交換碼必須轉(zhuǎn)換為機(jī)內(nèi)碼。例外:ISO/IEC 10646和Unicode中,交換碼與機(jī)內(nèi)碼一致ASCII碼也采用雙字節(jié)表示,2.1.2 漢字機(jī)內(nèi)碼,用于信息處理的漢字代碼,也稱:漢字處理碼處理碼機(jī)內(nèi)碼內(nèi)碼漢字內(nèi)碼長度2-4字節(jié),通常是雙字節(jié)。

12、單字節(jié)操作系統(tǒng)內(nèi)核,漢字代碼為了與ASCII碼相區(qū)分,往往把內(nèi)碼的兩字節(jié)(至少把第一個字節(jié))的最高位(Bit 7)置為1。,2.1.3 相互關(guān)系,GB2312 中56 50 (交換碼)D6 D0 (機(jī)內(nèi)碼)Unicode 中4E2DH (交換碼)4E2DH (機(jī)內(nèi)碼),內(nèi)容,ASCII碼及其擴(kuò)展中文信息在計(jì)算機(jī)內(nèi)的表示ISO/IEC 2022漢字編碼字符集GB2312-80BI

13、G-5Unicode和ISO10646GBK和GB18030,3.ISO 2022標(biāo)準(zhǔn),國際標(biāo)準(zhǔn)化組織于1976年制訂了ISO 2022國際標(biāo)準(zhǔn),ISO 2022定義了七位代碼和八位代碼的空間及其代碼空間擴(kuò)充的技術(shù)。多數(shù)計(jì)算機(jī)系統(tǒng)所采用的字符集都是以ISO 2022為基礎(chǔ)。我國根據(jù)ISO 2022制訂了國家標(biāo)準(zhǔn)GB 2311。,3.1 單八位代碼空間圖,3.2 單八位代碼空間布局,00-31(00H-1FH)第一個控制字符集C

14、0編碼區(qū)域32(20H):Space127(十六進(jìn)制為7FH):DELETE128-160(80H-A0H)第二個控制字符集C1編碼區(qū)域33-126 ( GL ) 和161-254 (GR)兩個圖形字符編碼區(qū)域,3.3 擴(kuò)充編碼空間的方法,ISO 2022擴(kuò)充編碼空間的方法,可以用多個7位單元或8位對字符進(jìn)行編碼,但是必須跳過控制字符區(qū)(即C0和C1的區(qū)域)。采用該標(biāo)準(zhǔn)擴(kuò)充的編碼空間為94n,n為編碼單元的個數(shù),若n=2,

15、則可以獲得8836個編碼,若n=3,則可以獲得830584個編碼。,3.4 字符代碼空間,,3.5 漢字位置,3.5.1 體系結(jié)構(gòu)特點(diǎn),代碼空間狹小C0, C1回避不用沒有利用80 H以上的空間按國家/地區(qū)分別編碼。需要一整套復(fù)的控制功能來區(qū)分不同代碼空間。,3.5.2 問題,字符集判別問題,3.5.3 ISO 2022字符集,ISO-2022-JP - 日語文字ISO-2022-JP-1 - 加上一組轉(zhuǎn)義字串ISO-202

16、2-JP-2 - 加上四組轉(zhuǎn)義字串,提供多語言支援 ISO-2022-JP-3 - 加上兩組轉(zhuǎn)義字串 ISO-2022-JP-2004 - 加上一組轉(zhuǎn)義字串 ISO-2022-KR - 朝鮮文 ISO-2022-CN - 中文 ISO-2022-CN-EXT - 加上六組轉(zhuǎn)義字串,ESC $ ( D 轉(zhuǎn)為JIS X 0212-1990,內(nèi)容,ASCII碼及其擴(kuò)展中文信息在計(jì)算機(jī)內(nèi)的表示ISO/IEC 2022漢字編碼字

17、符集GB2312-80BIG-5Unicode和ISO10646GBK和GB18030,4. 漢字編碼字符集,按照一組無歧義的規(guī)則而定義的漢字字匯的有序集合。每一個漢字與它的代碼表示之間具有一一對應(yīng)關(guān)系在信息處理技術(shù)中用于漢字信息的表示、交換、傳輸、處理、存儲、輸入及顯示ISO定義中:“無歧義的規(guī)則”很重要,確保編碼的唯一性,避免重碼,4.1 常用漢字編碼字符集,GB2312-80BIG-5ISO10646/Unic

18、odeGB13000GBKGB18030-2000,4.2 代碼頁,代碼頁可用于信息處理的字符集支持多文種環(huán)境IBM稱呼電腦BIOS本身支持的字符集編碼的名稱EBCDIC代碼頁Microsoft在DOS和Windows使用代碼頁每個具體的字符集賦予一個代號,稱為“代碼頁ID”,874 (泰語)932 (日語Shift-JIS)936 (簡體中文GBK)949 (韓文)950 (繁體中文Big5)12

19、58 (越南語),內(nèi)容,ASCII碼及其擴(kuò)展中文信息在計(jì)算機(jī)內(nèi)的表示ISO/IEC 2022漢字編碼字符集GB2312-80BIG-5Unicode和ISO10646GBK和GB18030,5. GB2312-80,信息交換用漢字編碼字符集(基本集)雙字節(jié)內(nèi)碼每個字節(jié)使用低7位“0000,0001”---“0101,1110” 1-0x5E(1-94)內(nèi)碼的空間:94*94=8836收錄漢字6763個,符號6

20、82個簡體字符集,5.1 國標(biāo)碼和區(qū)位碼,高位字節(jié)(1-94):94個區(qū)低位字節(jié)(1-94):94個位國標(biāo)碼:16進(jìn)制區(qū)位碼:10進(jìn)制如漢字“啊”,在第16區(qū)中的第1位,則國標(biāo)碼:1001(H)區(qū)位碼:1601,5.2 符號區(qū),1-9區(qū),682個符號一般符號(間隔、標(biāo)點(diǎn)、運(yùn)算、制表)202個序號60個數(shù)字22個希臘字母48個俄文字母66個漢語拼音26個拉丁字母52個日文假名169個漢語注音37個2-9

21、區(qū)有空位164個,5.2 符號區(qū),5.2 符號區(qū),5.2 符號區(qū),5.3 漢字區(qū),10-15區(qū):空88-94區(qū):空16-87區(qū):6763個漢字16-55區(qū):一級漢字3755個55區(qū)有5個空位,從89-9456-87區(qū):二級漢字3008個一級漢字按照音、筆形排列二級漢字按照部首排列,5.3 漢字區(qū),5.3 漢字區(qū),5.4 區(qū)位碼,漢字交換碼的另一種形式在GB2312中,交換碼方陣為94×94區(qū)位碼縱向定

22、義為區(qū)號(取值范圍為十進(jìn)制數(shù)的0-94)橫向定義為位號(取值范圍為十進(jìn)制數(shù)的0-94)兩個坐標(biāo)明確了一個漢字的位置區(qū)號和位號的編號:1-94例如,在GB2312-80中“ 碼”字所在的區(qū)號為“34”,位號為“75”,故其區(qū)位碼為“3475”,5.5 交換碼/區(qū)位碼/內(nèi)碼關(guān)系,存在著簡單的轉(zhuǎn)化關(guān)系假如:交換碼為JH(J為高位,H為低位,為十六進(jìn)數(shù))區(qū)位碼為QW(Q為區(qū)號,W為位號,為十進(jìn)制數(shù))處理碼為CL(C為高位,L為

23、低位,為十六進(jìn)制數(shù))則:J=Q+32 --?再轉(zhuǎn)換為十六進(jìn)制數(shù)H=W+32 --?再轉(zhuǎn)換為十六進(jìn)制數(shù)C=J+80HL=H+80H,5.6 轉(zhuǎn)換例子,“心”區(qū)位碼:48 36 -> 30H 24H交換碼:50H 44H30H+20H=50H24H+20H=44H機(jī)內(nèi)碼:D0H C4H50H+80H=D0H44H+80H=C4H,內(nèi)容,ASCII碼及其擴(kuò)展中文信息在計(jì)算機(jī)內(nèi)的表示ISO/IEC

24、2022漢字編碼字符集GB2312-80BIG-5Unicode和ISO10646GBK和GB18030,6. BIG-5,繁體用漢字編碼字符集交換碼和內(nèi)碼一致 臺灣、香港、澳門等地使用取碼范圍:高位:0x81-0xfe 94低位:0x40-0x70,0xa1-0xfe 157,6.1 BIG-5布局,94*157的矩陣94區(qū),每區(qū)157位最多14758個碼位收錄了13494個字符13053個漢字

25、441個非漢字圖形字符,6.2 BIG-5 代碼空間圖,6.3 代碼分布舉例,6.4 兩岸文字的不一致性,蘇 州 大 學(xué)CB D5 D6 DD B4 F3 D1 A7蘇州大學(xué) GB2312CC 4B D6 DD B4 F3 8C 57蘇州大學(xué) GBKC4 AC A6 7B A4 6A BE C7默廄 BIG-5,內(nèi)容,ASCII碼及其擴(kuò)展中文信息在計(jì)算機(jī)內(nèi)的表示ISO/IEC

26、2022漢字編碼字符集GB2312-80BIG-5Unicode和ISO10646GBK和GB18030,7.Uincode和 ISO10646,本地化編碼問題,7.1.1 本地化編碼的問題,現(xiàn)狀世界各國采用了不同的編碼標(biāo)準(zhǔn)。例如:香港及臺灣使用繁體字,通常采用「BIG-5」中國內(nèi)地使用簡體字,通常采用「GB2312」各種不同的編碼標(biāo)準(zhǔn)互不兼容。一個編碼在不同的編碼標(biāo)準(zhǔn)內(nèi)可能代表不同的字符。,7.1.2 例子,蘇

27、州 香港,明天我到香港來簽合同,請準(zhǔn)備相關(guān)文檔。,f)Yb0R??/n ? ?eg~{TT??? ? ?鹽?Y黲sQ?ch0 ? ?,,?????,7.1.3 統(tǒng)一文字編碼,提供一套統(tǒng)一的字符編碼標(biāo)準(zhǔn)包含世界上所有文字使通訊及資料交換不需轉(zhuǎn)碼在一個電腦上處理多種語言文本采用該標(biāo)準(zhǔn)后不同的電腦系統(tǒng)之間能更準(zhǔn)確地儲存、處理、傳遞及顯示各種文字信

28、息加強(qiáng)各地間文字信息的流通推動電子交易,7.2 ISO 10646,1984年發(fā)起制定新的編碼字符集國際標(biāo)準(zhǔn)WG2負(fù)責(zé),命名為UCS(Universal Character Set)字符碼長為4個八位的字節(jié)(Octet)編碼仍堅(jiān)持遵循ISO 2022字符編碼區(qū)必須要避開C0和C1控制區(qū)編號為ISO 10646,7.3 Unicode,一些著名的IT公司認(rèn)為:ISO 2022避開C0、C1區(qū),降低編碼效率主張采用統(tǒng)一

29、、連續(xù)編碼1988年初,施樂Joe Becker倡議以新編碼標(biāo)準(zhǔn):字符集編碼的基本單位由7位或者8位擴(kuò)充為16位充分利用65536個編碼位置容納全世界各種語言的字符和常用符號新標(biāo)準(zhǔn)被命名為Unicode1991年1月,IBM、DEC、Sun、 Microsoft、 Xerox、Apple、Novell等成立Unicode技術(shù)委員會,7.3.1 Unicode的含義,Unicode委員會負(fù)責(zé)Unicode字元搜集、整

30、理、編碼等Unicode的含義和目標(biāo)是“ 3Uni ”:Unique(唯一)Unified(統(tǒng)一)Universal(通用)所有文字均采用16位代碼任何代碼沒有二義性,7.3.2 ISO 10646和Unicode,由于Unicode技術(shù)委員會成員的實(shí)力和影響力Unicode方案的科學(xué)性Unicode技術(shù)委員會對WG2持續(xù)的游說和施壓WG2改用Unicode的編碼方式:所有字符的碼長均等同進(jìn)行連續(xù)編碼不再避開

31、C0和C1區(qū)WG2在1991年10月達(dá)成了協(xié)議將Unicode并入ISO10646,成為ISO 10646的第0字面,7.3.4 UCS-4,ISO10646的正規(guī)形式為32位 4個八位字節(jié),稱為UCS-4組(Group):128組(組號為00~7Fh)面(Plane): 256面(面號為00~FFh)行(Row):256行(行號為00~FFh)位(Cell): 256位(位號為00~FFh)編碼的Bit31(即首字節(jié)最

32、高位)必須為0,7.3.5 ISO 10646的編碼空間,ISO10646編碼空間總共為:256×128=32768個字面每個字面為256×256-2=65534個編碼位置合計(jì)65534×32768=2147418112個編碼位置ISO10646規(guī)定,每個字面的最后兩個編碼位置FFFEh和FFFFh保留不用,7.3.6 編碼結(jié)構(gòu)示意圖,,7.3.7 基本多文種字面,基本多文種字面(Basic M

33、ulti-lingual Plane, BMP) :ISO10646的第0組第0字面(組和面的值都為00h)編碼字元與Unicode相同。UCS-2:只用BMP,每個字符只用16位編碼,BMP(Unicode)編碼,0000~007Fh:基本拉丁字母區(qū)0000~001Fh為C0控制碼0020h為空格(space)0021~007Eh為ASCII圖形字符007Fh為控制碼DEL把前8位去掉即8位ASCII碼0080~00

34、A0h:控制碼區(qū)0080~009Fh為C1控制碼00A0h為不中斷空格(no-break space),,拼音文字區(qū),00A1~1FFFh:拼音文字區(qū)除基本拉丁字母以外的各種拼音文字歐洲各國語言希臘文斯拉夫語文希伯來文阿拉伯文亞美尼亞文馬來文等,符號區(qū),2000~28FFh:符號區(qū)標(biāo)點(diǎn)符號上下標(biāo)錢幣符號數(shù)字箭頭數(shù)學(xué)符號工程符號光學(xué)辨識符號……,中日韓符號區(qū),2E80~33FFh:中日韓符號區(qū)康熙

35、字典部首中日韓輔助部首注音符號日本假名和日本的假名組合韓文音符中日韓的符號標(biāo)點(diǎn)帶圈或帶括符文數(shù)字、月份、單位、年號、 月份、日期、時間等,,中日韓符號區(qū),中日韓認(rèn)同表意文字區(qū),3400~4DFFh中日韓認(rèn)同表意文字?jǐn)U充A區(qū)總計(jì)收容6,582個中日韓漢字4E00~9FFFh中日韓認(rèn)同表意文字區(qū)收容20,902個中韓漢字,,中日韓認(rèn)同表意文字區(qū),,其它區(qū),AC00~D7FFh:韓文拼音組合字區(qū)D8

36、00~DFFFh:S區(qū)(代理區(qū)),專門用於UTF-16E000~F8FFh:專用字區(qū),保留供使用者自行添加F900~FAFFh:中日韓相容表意文字區(qū),專用字面和輔助字面,除BMP,其余32767字面分為:專用字面(Private Use Planes)供用戶自己定義ISO 10646中未收錄的字符,共有8226個包括00h組的0Fh、10h、E0h-FFh號34個字面,以及60h-7Fh組內(nèi)的全部字面輔助字面(Supplem

37、entary Planes)供WG2陸續(xù)定義各國文字字符24541個字面,00h組字面示意圖,,使用字面,除BMP,WG2僅使用:00h組中的01h和02h號字面第01h號字面:定義BMP內(nèi)未收集的各國非表意文字和符號第02h號字面:定義BMP內(nèi)未收集的各國表意文字和符號,如:CJK表意文字?jǐn)U充B區(qū),共計(jì)42807個漢字CNS11643兼容字符區(qū),共計(jì)527個字符Unicode明確提出,只會使用00h組前17個字面(即0

38、0h-10h號字面),版本,ISO 10646:1993即:Unicode 2.0、GB13000.1收錄20902個漢字ISO 10646:2000即:Unicode 3.0、GB13000.2收錄27484個漢字ISO 10646:2003即:Unicode 4.0、GB13000.3收錄70198個漢字,加符號共96243個,版本(續(xù)),ISO/IEC 10646:2003 plus Amendment 1,2

39、,3 Unicode 5.071226漢字,加符號共98884ISO/IEC 10646:2011 Unicode 6.075616漢字,加符號共109242Unicode 6.2 (最新) 2012.475619漢字,加符號共109974,內(nèi)容,ASCII碼及其擴(kuò)展中文信息在計(jì)算機(jī)內(nèi)的表示ISO/IEC 2022漢字編碼字符集GB2312-80BIG-5Unicode和ISO10646GBK和GB180

40、30,8.1 GB 13000,中國1993年: GB13000.1-1993 (信息技術(shù)通用多八位編碼字符集(UCS)和ISO10646:1993(Unicode 2.0)在字符集上基本一致最初共收錄了20902個漢字,以后將跟隨ISO10646的增補(bǔ),同步進(jìn)行增補(bǔ)。,8.2 GBK,2字節(jié)漢字編碼在內(nèi)碼上兼容GB2312-80在字匯上兼容GB13000/ISO10646是GB2312向GB13000過渡的中間代碼收錄2

41、1886個漢字和符號從8140H-FEFEH,除了xx7F一條線簡繁一體,8.2.1 GBK碼位分布圖,8.2.2 GBK碼位圖,8.2.3 GBK字符,87 0 1 2 3 4 5 6 7 8 9 A B C D E F 4 嘆 嘇 嘊 嘋 嘍 嘐 嘑 嘒 嘓 嘔 嘕 嘖 嘗 嘙 嘚 嘜 5 嘝 嘠 嘡 嘢 嘥 嘦 嘨 嘩 嘪 嘫 嘮 嘯 嘰 嘳 嘵 嘷 6 嘸 嘺 嘼 嘽 嘾 噀 噁 噂 噃 噄 噅 噆 噇 噈 噉 噊

42、7 噋 噏 噐 噑 噒 噓 噕 噖 噚 噛 噝 噞 噟 噠 噡 8 噣 噥 噦 噧 噭 噮 噯 噰 噲 噳 噴 噵 噷 噸 噹 噺 9 噽 噾 噿 嚀 嚁 嚂 嚃 嚄 嚇 嚈 嚉 嚊 嚋 嚌 嚍 嚐 A 嚑 嚒 嚔 嚕 嚖 嚗 嚘 嚙 嚚 嚛 嚜 嚝 嚞 嚟 嚠 嚡 B 嚢 嚤 嚥 嚦 嚧 嚨 嚩 嚪 嚫 嚬 嚭 嚮 嚰 嚱 嚲 嚳C 嚴(yán) 嚵 嚶 嚸 嚹 嚺 嚻 嚽 嚾 嚿 囀 囁 囂 囃 囄 囅 D 囆 囇 囈 囉 囋

43、囌 囍 囎 囏 囐 囑 囒 囓 囕 囖 囘 E 囙 囜 団 囥 囦 囧 囨 囩 囪 囬 囮 囯 囲 図 囶 囷 F 囸 囻 囼 圀 圁 圂 圅 圇 國 圌 圍 圎 圏 圐 圑,8.2.4 21個兼容字,ISO定義字形和我國不符郎   Unicode:   F92C (GBK)郞   Unicode:   90DE,8.3 G

44、B18030-2000,2000-3-17發(fā)布2001年9月作為國家標(biāo)準(zhǔn)強(qiáng)制實(shí)施 信息交換用漢字編碼字符集基本集的擴(kuò)充2000年ISO發(fā)布ISO 10646-1:2000(Unicode 3.0)增加中日韓統(tǒng)一漢字Extension A的6,582個字符GB18030-2000在 GBK 編碼標(biāo)準(zhǔn)的基礎(chǔ)擴(kuò)充增加四字節(jié)(32位)編碼漢字后到達(dá)了27533個漢字總編碼空間超過150萬個碼位,GB18030-2000,GB18

45、030標(biāo)準(zhǔn)采用單字節(jié) (ACCII)雙字節(jié)(GBK)四字節(jié)( Extension A的6,582個字符)四字節(jié)的編碼順序?yàn)?8.3.1 GB18030-2000碼位分布,,,,8.3.2 新增漢字,,8.3.4 GB18030-2005,GB18030-2005信息技術(shù)中文編碼字符集收錄了70244個漢字包含多種我國少數(shù)民族文字(如藏、蒙古、傣、彝、朝鮮、維吾爾文等)的超大型中文編碼字符集強(qiáng)制性標(biāo)準(zhǔn),作業(yè),P1-6,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論