構(gòu)造漢語的統(tǒng)計(jì)計(jì)算語言模型

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-01-05 格式：ppt 頁數(shù)：36 大?。?45.00KB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁，還剩35頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、漢字編碼,1,漢字編碼,漢字編碼,2,漢字編碼現(xiàn)狀及其根源,多種編碼方案共存，不利于交流和共享新舊標(biāo)準(zhǔn)同臺使用，需相互轉(zhuǎn)換統(tǒng)一標(biāo)準(zhǔn)正在形成中、日、韓、新等多國同時(shí)使用漢字簡繁體漢字并存地區(qū)、國家間的文化、政治差異增加了漢字統(tǒng)一編碼的難度,漢字編碼,3,主要漢字(文字)編碼標(biāo)準(zhǔn)與規(guī)范,ASCII(英文)GB2312GBKGB13000GB18030BIG5Shift_JISISO/IEC 10646Unicode

2、,漢字編碼,4,漢字的幾種通行名稱,Hanzi,Hantsu,漢字Ideographic character,表意字符，中文字符Kanji-日文中的叫法Hanja-朝鮮文中的叫法CJK-中日韓通用字符集Unihan,漢字編碼,5,ASCII碼,,美國信息交換標(biāo)準(zhǔn)編碼(“美標(biāo)”)用從0到127的128個(gè)數(shù)字來代表信息的規(guī)范編碼包括33個(gè)控制碼，一個(gè)空格碼，和94個(gè)形象碼形象碼中包括了英文大小寫字母，阿拉伯?dāng)?shù)字，標(biāo)點(diǎn)符號等

3、國際上大部分電腦的通用編碼,漢字編碼,6,文本文件與二進(jìn)制文件,,字符大都是用一個(gè)八位二進(jìn)制數(shù)字表示，美標(biāo)只規(guī)定了128個(gè)編碼，剩下的另外128個(gè)數(shù)碼沒有規(guī)范，美標(biāo)中的33個(gè)控制碼，各廠家用法也不盡一致文本文件(ASCII Text Files) ：美標(biāo)形象碼或空格碼組成，通?？稍诓煌娔X系統(tǒng)間直接交換二進(jìn)制文件(Binary Files) ：含有控制碼或非美標(biāo)碼的文件，通常不能在不同電腦系統(tǒng)間直接交換,漢字編碼,7,國標(biāo)、區(qū)位、“

4、準(zhǔn)國標(biāo)” 、機(jī)內(nèi)碼,,國標(biāo)：中華人民共和國國家標(biāo)準(zhǔn)信息交換用漢字編碼國標(biāo)(GB2312-80)表（基本表）把七千余漢字、以及標(biāo)點(diǎn)符號、外文字母等，排成一個(gè)94行、94列的方陣每一橫行叫一個(gè)“區(qū)”，每個(gè)區(qū)有九十四個(gè)“位”一個(gè)漢字在方陣中的坐標(biāo)，稱為該字的“區(qū)位碼”例如“中”字在方陣中處于第５４區(qū)第４８位，它的區(qū)位碼就是5448,漢字編碼,8,區(qū)位碼表,,區(qū)位碼來源于信息交換用漢字編碼字符集（基本集）國家標(biāo)準(zhǔn)(GB2312-80)，

5、該標(biāo)準(zhǔn)收漢字6763個(gè)，第一級3755個(gè)，位于16至55區(qū)，55區(qū)的最后5個(gè)字符沒有定義；第二級3008個(gè)，位于56至87區(qū)第一級漢字按照漢語拼音字母順序排列，同音字以筆形順序橫（一）、直（丨）、撇（丿）、點(diǎn)（丶）、折（乙）為序。起筆相同按第二筆，依次類推。第二級漢字按部首排序，本標(biāo)準(zhǔn)采用的部首與一般字典用的部首基本相同，略有改變。部首次序及同部首字按筆劃數(shù)排列，同筆劃數(shù)的字以筆形順序橫（一）、直（丨）、撇（丿）、點(diǎn)（丶）、折（乙）

6、為序。起筆相同按第二筆，依次類推。查表時(shí)先查區(qū)號，再查行、列，例如：“、”是0102，“藹”是1610。,漢字編碼,9,例,,,,漢字編碼,10,例,,,,,漢字編碼,11,例,,,漢字編碼,12,例,,,漢字編碼,13,例,,,漢字編碼,14,例,,,漢字編碼,15,國標(biāo)、區(qū)位、“準(zhǔn)國標(biāo)”、機(jī)內(nèi)碼,94:美標(biāo)中形象碼的總數(shù),33--126 漢字區(qū)、位碼各加上32，就會與美標(biāo)形象碼的范圍重合,稱為該字的“國標(biāo)碼”,與其相對應(yīng)的兩個(gè)

7、美標(biāo)符號，為該字的“國標(biāo)符” 如何區(qū)分國標(biāo)符與美標(biāo)符：國標(biāo)碼的兩個(gè)數(shù)字各加上128，稱“準(zhǔn)國標(biāo)”或“機(jī)內(nèi)碼”機(jī)內(nèi)碼=（區(qū)位碼）H + 8080H +2020H,漢字編碼,16,BIG5碼,針對繁體漢字的編碼，在臺灣、香港的電腦系統(tǒng)中得到普遍應(yīng)用,,漢字編碼,17,ISO/IEC 10646,一個(gè)國際標(biāo)準(zhǔn)編號,國際標(biāo)準(zhǔn)化組織（ISO）1993年正式頒布英文全稱：Information technology - Universal

8、 Multiple - Octet Coded Character Set,簡稱UCS 中文全稱：信息技術(shù)--通用多八位編碼字符集，亦稱大字符集宗旨:全球所有文種統(tǒng)一編碼,漢字編碼,18,Unicode,,英文Universal Code的縮略語統(tǒng)一編碼是對國際標(biāo)準(zhǔn)ISO/IEC 10646編碼的一種稱謂是一個(gè)企業(yè)聯(lián)盟集團(tuán)的名稱,由美國的HP、Microsoft、IBM、Apple等幾家知名的大型計(jì)算機(jī)企業(yè)所組成,成立該集團(tuán)的

9、宗旨就是要推進(jìn)多文種的統(tǒng)一編碼就內(nèi)容而言，Unicode和ISO/IEC 10646是一致的，并行的,漢字編碼,19,CJK-中日韓統(tǒng)一漢字,把中國、日本與韓國的英文稱謂的首字母用于ISO/IEC 10646中的中、日、韓統(tǒng)一編碼漢字的簡稱UnihanCJKV或許更準(zhǔn)確，V代表越南,漢字編碼,20,ISO/IEC 10646 的體系結(jié)構(gòu),,四維的編碼空間總體上分為128個(gè)三維組（group）, group的值范圍是從00到7F

10、每一組包含256個(gè)平面(plane)，每一個(gè)平面包含256行(row)，每一行包含256個(gè)字位(cell)，又稱為“列”,plane、row、cell的值范圍都是從00到FF全編碼整個(gè)編碼字符集的每個(gè)字符都是由4個(gè)八位序列表示,(按照組八位、面八位、行八位、列八位的順序) 可編碼空間為：128X256X256X256=32KX64K,漢字編碼,21,ISO/IEC 10646體系結(jié)構(gòu)圖,,,漢字編碼,22,基本多文種平面,,第一個(gè)

11、平面（00組中的00平面）稱作Basic Multilingual Plane(基本多文種平面)，簡稱BMP，并在其上規(guī)定了雙八位形式，它可以作為雙八位編碼字符集使用,即在此平面上僅用行、列兩個(gè)八位就可以表示一個(gè)編碼字符,漢字編碼,23,BMP的最新概貌,,A-Zone(00至4D行) ：拼音文字編碼區(qū),拉丁文、阿拉伯文、日文的平假名及片假名、數(shù)學(xué)符號等都在此區(qū)域編碼CJK Unified Ideographs，Extension A

12、(3400-4DB5)(6000多碼位 )CJK Unified Ideographs(4E00-9FA5)(20902個(gè)編碼漢字 )韓文 (AC至D7這44行（44X256=11264）)S-ZONE (D8至DF行)for UTF-16R-Zone(E0至FF行):限制使用區(qū)，一些兼容字符、字符的變形顯現(xiàn)形式、特殊字符等均放在此區(qū),漢字編碼,24,ISO/IEC 10646空間分配現(xiàn)狀,,00平面:BMP，被用于全球現(xiàn)已規(guī)范

13、語種的基本文字編碼，編碼空間已基本飽和01平面:作為拼音文字輔助平面02平面:作為漢字輔助平面，CJK Extension B即將放入該平面E0至FF平面:作為該標(biāo)準(zhǔn)的專用平面來使用其它空間尚未分配,漢字編碼,25,ISO/IEC 10646中CJK漢字組成,,CJK統(tǒng)一編碼漢字（20902）CJK擴(kuò)充集A(6585)CJK擴(kuò)充集B(4萬--),漢字編碼,26,什么是UTF?,Unicode transformation

14、formatUCS transformation format從Unicode碼點(diǎn)到唯一字節(jié)序列的映射算法，一一映射，保證無損轉(zhuǎn)換,漢字編碼,27,UTF-16,Unicode標(biāo)準(zhǔn)的16位編碼形式為每個(gè)字符指定一個(gè)16位的值編碼形式與ISO/IEC 10646中的定義形式相同以一個(gè)16位的值來編碼映射到不大于65535數(shù)值的字符，映射到大于65535的數(shù)值的字符則被編碼成一組16位的值（代用對）,漢字編碼,28,UTF-8,為

15、滿足面向字節(jié)、基于ASCII碼系統(tǒng)的需要而制定(主要用于數(shù)據(jù)傳輸、互聯(lián)網(wǎng))用最多達(dá)4個(gè)字節(jié)的序列來表示每個(gè)字符，為有效分析字符串，用第一個(gè)字節(jié)指明某個(gè)多字節(jié)序列中的字節(jié)數(shù)通常用于數(shù)據(jù)交換,,漢字編碼,29,UTF-32,每個(gè)字符都表示成一個(gè)32位的整數(shù)碼長相等，便于某些特殊情況的處理Unix系統(tǒng)使用,漢字編碼,30,字節(jié)順序標(biāo)記(BOM),指示處理器怎樣把連續(xù)的文本放到一個(gè)字節(jié)序列中權(quán)值最低的字節(jié)位于開頭叫做“l(fā)ittle-e

16、ndian”,權(quán)值最高的字節(jié)位于開頭叫做“big-endian”可用作識別文本文件編碼形式的依據(jù),漢字編碼,31,Windows對Unicode的支持,Windows 3.1, Windows NT 4, Windows 2000, Windows XP支持Unicode.如果在這些操作系統(tǒng)上運(yùn)行非Unicode編碼程序，在處理之前，操作系統(tǒng)在其內(nèi)部將應(yīng)用程序的文本轉(zhuǎn)化為Unicode編碼的文本，在把信息傳回應(yīng)用程序之前，操作系統(tǒng)把U

17、nicode編碼的文本轉(zhuǎn)化回所希望的代碼頁編碼形式。Windows 95, Windows 98, Windows Me不是基于Unicode的，它們只提供了基于Windows NT的Windows版本所提供的Unicode支持的一個(gè)子集,漢字編碼,32,GBK,漢字內(nèi)碼擴(kuò)展規(guī)范，Rules/Specifications defining the extensions of internal codes for Chinese ide

18、ograms為了推進(jìn)Unicode的實(shí)施，同時(shí)也是為了向下兼容,由電子部與國家技術(shù)監(jiān)督局聯(lián)合頒布在保持GB2312原貌的基礎(chǔ)上，將其字匯擴(kuò)充與ISO 10646中的CJK等量，同時(shí)也包容了臺灣的工業(yè)標(biāo)準(zhǔn)Big5碼漢字，此外還為用戶留了1894個(gè)碼位的自定義區(qū),漢字編碼,33,GB18030-2000,信息技術(shù)-信息交換用漢字編碼字符集-基本集的擴(kuò)充，Information technology-Chinese ideograms

19、coded character set for information interchange-Extension for the basic setGBK的替代、超集,漢字編碼,34,GB18030-2000,完全包含CJK(Unihan) Extension A與GBK完全兼容(code- and character- compatible)的同時(shí)，為所有其它Unicode碼點(diǎn)提供了空間定義了4字節(jié)編碼機(jī)制,漢字編碼,35,G

20、B18030-2000碼位范圍分配表,,2字節(jié)編碼共23940個(gè)碼位4字節(jié)編碼共超過150萬個(gè)碼位,漢字編碼,36,ISO 10646/Unicode的實(shí)現(xiàn)及其重要意義,,在全球范圍內(nèi)建立起實(shí)時(shí)、無障礙的信息交換模式推動了漢字典籍的數(shù)字化為數(shù)字化圖書館的建立鋪平了道路為弘揚(yáng)漢字文化提供了舞臺Single Binary技術(shù)的誕生：同一套基本程序用于多個(gè)語言環(huán)境的技術(shù)使?jié)h字關(guān)聯(lián)活起來：正-異關(guān)聯(lián)、中-日關(guān)聯(lián)、繁-簡關(guān)聯(lián)，正-訛關(guān)

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

構(gòu)造漢語的統(tǒng)計(jì)計(jì)算語言模型

文檔簡介

溫馨提示

最新文檔

評論

構(gòu)造漢語的統(tǒng)計(jì)計(jì)算語言模型

文檔簡介

溫馨提示

最新文檔

評論

免費(fèi)下載