版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、漢字編碼,1,漢字編碼,漢字編碼,2,漢字編碼現(xiàn)狀及其根源,多種編碼方案共存,不利于交流和共享新舊標(biāo)準(zhǔn)同臺使用,需相互轉(zhuǎn)換統(tǒng)一標(biāo)準(zhǔn)正在形成中、日、韓、新等多國同時(shí)使用漢字簡繁體漢字并存地區(qū)、國家間的文化、政治差異增加了漢字統(tǒng)一編碼的難度,漢字編碼,3,主要漢字(文字)編碼標(biāo)準(zhǔn)與規(guī)范,ASCII(英文)GB2312GBKGB13000GB18030BIG5Shift_JISISO/IEC 10646Unicode
2、,漢字編碼,4,漢字的幾種通行名稱,Hanzi,Hantsu,漢字Ideographic character,表意字符,中文字符Kanji-日文中的叫法Hanja-朝鮮文中的叫法CJK-中日韓通用字符集Unihan,漢字編碼,5,ASCII碼,,美國信息交換標(biāo)準(zhǔn)編碼(“美標(biāo)”)用從0到127的128個(gè)數(shù)字來代表信息的規(guī)范編碼包括33個(gè)控制碼,一個(gè)空格碼,和94個(gè)形象碼形象碼中包括了英文大小寫字母,阿拉伯?dāng)?shù)字,標(biāo)點(diǎn)符號等
3、國際上大部分電腦的通用編碼,漢字編碼,6,文本文件與二進(jìn)制文件,,字符大都是用一個(gè)八位二進(jìn)制數(shù)字表示,美標(biāo)只規(guī)定了128個(gè)編碼,剩下的另外128個(gè)數(shù)碼沒有規(guī)范,美標(biāo)中的33個(gè)控制碼,各廠家用法也不盡一致文本文件(ASCII Text Files) :美標(biāo)形象碼或空格碼組成,通??稍诓煌娔X系統(tǒng)間直接交換二進(jìn)制文件(Binary Files) :含有控制碼或非美標(biāo)碼的文件,通常不能在不同電腦系統(tǒng)間直接交換,漢字編碼,7,國標(biāo)、區(qū)位、“
4、準(zhǔn)國標(biāo)” 、機(jī)內(nèi)碼,,國標(biāo):中華人民共和國國家標(biāo)準(zhǔn)信息交換用漢字編碼國標(biāo)(GB2312-80)表(基本表)把七千余漢字、以及標(biāo)點(diǎn)符號、外文字母等,排成一個(gè)94行、94列的方陣每一橫行叫一個(gè)“區(qū)”,每個(gè)區(qū)有九十四個(gè)“位”一個(gè)漢字在方陣中的坐標(biāo),稱為該字的“區(qū)位碼”例如“中”字在方陣中處于第54區(qū)第48位,它的區(qū)位碼就是5448,漢字編碼,8,區(qū)位碼表,,區(qū)位碼來源于信息交換用漢字編碼字符集(基本集)國家標(biāo)準(zhǔn)(GB2312-80),
5、該標(biāo)準(zhǔn)收漢字6763個(gè),第一級3755個(gè),位于16至55區(qū),55區(qū)的最后5個(gè)字符沒有定義;第二級3008個(gè),位于56至87區(qū)第一級漢字按照漢語拼音字母順序排列,同音字以筆形順序橫(一)、直(丨)、撇(丿)、點(diǎn)(丶)、折(乙)為序。起筆相同按第二筆,依次類推。第二級漢字按部首排序,本標(biāo)準(zhǔn)采用的部首與一般字典用的部首基本相同,略有改變。部首次序及同部首字按筆劃數(shù)排列,同筆劃數(shù)的字以筆形順序橫(一)、直(丨)、撇(丿)、點(diǎn)(丶)、折(乙)
6、為序。起筆相同按第二筆,依次類推。查表時(shí)先查區(qū)號,再查行、列,例如:“、”是0102,“藹”是1610。,漢字編碼,9,例,,,,漢字編碼,10,例,,,,,漢字編碼,11,例,,,漢字編碼,12,例,,,漢字編碼,13,例,,,漢字編碼,14,例,,,漢字編碼,15,國標(biāo)、區(qū)位、“準(zhǔn)國標(biāo)”、機(jī)內(nèi)碼,94:美標(biāo)中形象碼的總數(shù),33--126 漢字區(qū)、位碼各加上32,就會與美標(biāo)形象碼的范圍重合,稱為該字的“國標(biāo)碼”,與其相對應(yīng)的兩個(gè)
7、美標(biāo)符號,為該字的“國標(biāo)符” 如何區(qū)分國標(biāo)符與美標(biāo)符:國標(biāo)碼的兩個(gè)數(shù)字各加上128,稱“準(zhǔn)國標(biāo)”或“機(jī)內(nèi)碼”機(jī)內(nèi)碼=(區(qū)位碼)H + 8080H +2020H,漢字編碼,16,BIG5碼,針對繁體漢字的編碼,在臺灣、香港的電腦系統(tǒng)中得到普遍應(yīng)用,,漢字編碼,17,ISO/IEC 10646,一個(gè)國際標(biāo)準(zhǔn)編號,國際標(biāo)準(zhǔn)化組織(ISO)1993年正式頒布 英文全稱:Information technology - Universal
8、 Multiple - Octet Coded Character Set,簡稱UCS 中文全稱:信息技術(shù)--通用多八位編碼字符集,亦稱大字符集宗旨:全球所有文種統(tǒng)一編碼,漢字編碼,18,Unicode,,英文Universal Code的縮略語統(tǒng)一編碼是對國際標(biāo)準(zhǔn)ISO/IEC 10646編碼的一種稱謂是一個(gè)企業(yè)聯(lián)盟集團(tuán)的名稱,由美國的HP、Microsoft、IBM、Apple等幾家知名的大型計(jì)算機(jī)企業(yè)所組成,成立該集團(tuán)的
9、宗旨就是要推進(jìn)多文種的統(tǒng)一編碼就內(nèi)容而言,Unicode和ISO/IEC 10646是一致的,并行的,漢字編碼,19,CJK-中日韓統(tǒng)一漢字,把中國、日本與韓國的英文稱謂的首字母用于ISO/IEC 10646中的中、日、韓統(tǒng)一編碼漢字的簡稱UnihanCJKV或許更準(zhǔn)確,V代表越南,漢字編碼,20,ISO/IEC 10646 的體系結(jié)構(gòu),,四維的編碼空間總體上分為128個(gè)三維組(group), group的值范圍是從00到7F
10、每一組包含256個(gè)平面(plane),每一個(gè)平面包含256行(row),每一行包含256個(gè)字位(cell),又稱為“列”,plane、row、cell的值范圍都是從00到FF全編碼整個(gè)編碼字符集的每個(gè)字符都是由4個(gè)八位序列表示,(按照組八位、面八位、行八位、列八位的順序) 可編碼空間為:128X256X256X256=32KX64K,漢字編碼,21,ISO/IEC 10646體系結(jié)構(gòu)圖,,,漢字編碼,22,基本多文種平面,,第一個(gè)
11、平面(00組中的00平面)稱作Basic Multilingual Plane(基本多文種平面),簡稱BMP,并在其上規(guī)定了雙八位形式,它可以作為雙八位編碼字符集使用,即在此平面上僅用行、列兩個(gè)八位就可以表示一個(gè)編碼字符,漢字編碼,23,BMP的最新概貌,,A-Zone(00至4D行) :拼音文字編碼區(qū),拉丁文、阿拉伯文、日文的平假名及片假名、數(shù)學(xué)符號等都在此區(qū)域編碼CJK Unified Ideographs,Extension A
12、(3400-4DB5)(6000多碼位 )CJK Unified Ideographs(4E00-9FA5)(20902個(gè)編碼漢字 )韓文 (AC至D7這44行(44X256=11264))S-ZONE (D8至DF行)for UTF-16R-Zone(E0至FF行):限制使用區(qū),一些兼容字符、字符的變形顯現(xiàn)形式、特殊字符等均放在此區(qū),漢字編碼,24,ISO/IEC 10646空間分配現(xiàn)狀,,00平面:BMP,被用于全球現(xiàn)已規(guī)范
13、語種的基本文字編碼,編碼空間已基本飽和01平面:作為拼音文字輔助平面02平面:作為漢字輔助平面,CJK Extension B即將放入該平面E0至FF平面:作為該標(biāo)準(zhǔn)的專用平面來使用 其它空間尚未分配,漢字編碼,25,ISO/IEC 10646中CJK漢字組成,,CJK統(tǒng)一編碼漢字(20902)CJK擴(kuò)充集A(6585)CJK擴(kuò)充集B(4萬--),漢字編碼,26,什么是UTF?,Unicode transformation
14、formatUCS transformation format從Unicode碼點(diǎn)到唯一字節(jié)序列的映射算法,一一映射,保證無損轉(zhuǎn)換,漢字編碼,27,UTF-16,Unicode標(biāo)準(zhǔn)的16位編碼形式為每個(gè)字符指定一個(gè)16位的值編碼形式與ISO/IEC 10646中的定義形式相同以一個(gè)16位的值來編碼映射到不大于65535數(shù)值的字符,映射到大于65535的數(shù)值的字符則被編碼成一組16位的值(代用對),漢字編碼,28,UTF-8,為
15、滿足面向字節(jié)、基于ASCII碼系統(tǒng)的需要而制定(主要用于數(shù)據(jù)傳輸、互聯(lián)網(wǎng))用最多達(dá)4個(gè)字節(jié)的序列來表示每個(gè)字符,為有效分析字符串,用第一個(gè)字節(jié)指明某個(gè)多字節(jié)序列中的字節(jié)數(shù)通常用于數(shù)據(jù)交換,,漢字編碼,29,UTF-32,每個(gè)字符都表示成一個(gè)32位的整數(shù)碼長相等,便于某些特殊情況的處理Unix系統(tǒng)使用,漢字編碼,30,字節(jié)順序標(biāo)記(BOM),指示處理器怎樣把連續(xù)的文本放到一個(gè)字節(jié)序列中權(quán)值最低的字節(jié)位于開頭叫做“l(fā)ittle-e
16、ndian”,權(quán)值最高的字節(jié)位于開頭叫做“big-endian”可用作識別文本文件編碼形式的依據(jù),漢字編碼,31,Windows對Unicode的支持,Windows 3.1, Windows NT 4, Windows 2000, Windows XP支持Unicode.如果在這些操作系統(tǒng)上運(yùn)行非Unicode編碼程序,在處理之前,操作系統(tǒng)在其內(nèi)部將應(yīng)用程序的文本轉(zhuǎn)化為Unicode編碼的文本,在把信息傳回應(yīng)用程序之前,操作系統(tǒng)把U
17、nicode編碼的文本轉(zhuǎn)化回所希望的代碼頁編碼形式。Windows 95, Windows 98, Windows Me不是基于Unicode的,它們只提供了基于Windows NT的Windows版本所提供的Unicode支持的一個(gè)子集,漢字編碼,32,GBK,漢字內(nèi)碼擴(kuò)展規(guī)范,Rules/Specifications defining the extensions of internal codes for Chinese ide
18、ograms為了推進(jìn)Unicode的實(shí)施,同時(shí)也是為了向下兼容,由電子部與國家技術(shù)監(jiān)督局聯(lián)合頒布 在保持GB2312原貌的基礎(chǔ)上,將其字匯擴(kuò)充與ISO 10646中的CJK等量,同時(shí)也包容了臺灣的工業(yè)標(biāo)準(zhǔn)Big5碼漢字,此外還為用戶留了1894個(gè)碼位的自定義區(qū),漢字編碼,33,GB18030-2000,信息技術(shù)-信息交換用漢字編碼字符集-基本集的擴(kuò)充,Information technology-Chinese ideograms
19、coded character set for information interchange-Extension for the basic setGBK的替代、超集,漢字編碼,34,GB18030-2000,完全包含CJK(Unihan) Extension A與GBK完全兼容(code- and character- compatible)的同時(shí),為所有其它Unicode碼點(diǎn)提供了空間定義了4字節(jié)編碼機(jī)制,漢字編碼,35,G
20、B18030-2000碼位范圍分配表,,2字節(jié)編碼共23940個(gè)碼位4字節(jié)編碼共超過150萬個(gè)碼位,漢字編碼,36,ISO 10646/Unicode的實(shí)現(xiàn)及其重要意義,,在全球范圍內(nèi)建立起實(shí)時(shí)、無障礙的信息交換模式推動了漢字典籍的數(shù)字化為數(shù)字化圖書館的建立鋪平了道路為弘揚(yáng)漢字文化提供了舞臺Single Binary技術(shù)的誕生:同一套基本程序用于多個(gè)語言環(huán)境的技術(shù)使?jié)h字關(guān)聯(lián)活起來:正-異關(guān)聯(lián)、中-日關(guān)聯(lián)、繁-簡關(guān)聯(lián),正-訛關(guān)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于統(tǒng)計(jì)語言模型的漢語詞法分析研究.pdf
- 基于統(tǒng)計(jì)語言模型的跨語言信息檢索.pdf
- 統(tǒng)計(jì)語言模型的研究與應(yīng)用.pdf
- 基于類的統(tǒng)計(jì)語言模型的研究.pdf
- 統(tǒng)計(jì)語言模型應(yīng)用與研究.pdf
- 統(tǒng)計(jì)知覺的層次計(jì)算模型.pdf
- 神經(jīng)編碼的統(tǒng)計(jì)計(jì)算模型.pdf
- 基于統(tǒng)計(jì)模型的漢語歌聲合成研究.pdf
- 基于統(tǒng)計(jì)語言模型的檢索模型及其平滑技術(shù)的研究.pdf
- 資源空間模型自動構(gòu)造及操作語言研究.pdf
- 基于統(tǒng)計(jì)語言模型和Passage特征的信息檢索模型研究.pdf
- 漢語語音識別的統(tǒng)計(jì)模型研究.pdf
- 基于互信息的統(tǒng)計(jì)語言模型平滑技術(shù).pdf
- 本體論和統(tǒng)計(jì)語言模型相結(jié)合的跨語言信息檢索研究.pdf
- 基于成本的流計(jì)算語言優(yōu)化模型研究.pdf
- 自然語言的計(jì)算機(jī)處理模型.pdf
- 統(tǒng)計(jì)語言模型N-best重排序算法的研究.pdf
- 基于統(tǒng)計(jì)語言的中文網(wǎng)頁信息檢索模型研究.pdf
- 基于統(tǒng)計(jì)語言模型的中文自動文本分類系統(tǒng).pdf
- 維吾爾語統(tǒng)計(jì)語言模型中建模基元的研究.pdf
評論
0/150
提交評論