語(yǔ)言網(wǎng)絡(luò)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩81頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、復(fù)雜網(wǎng)絡(luò)是對(duì)某些復(fù)雜系統(tǒng)的抽象和描述.任何一個(gè)網(wǎng)絡(luò)都可以看作是由一些節(jié)點(diǎn)按照某種方式連接在一起而構(gòu)成的一個(gè)系統(tǒng),其中節(jié)點(diǎn)代表真實(shí)系統(tǒng)中的個(gè)體,而邊表示個(gè)體間的相互聯(lián)系.現(xiàn)實(shí)世界中大量的復(fù)雜系統(tǒng)都可以看成是復(fù)雜網(wǎng)絡(luò),它們廣泛存在于社會(huì)、經(jīng)濟(jì)、生物等眾多領(lǐng)域,例如萬(wàn)維網(wǎng)和互聯(lián)網(wǎng)、生物網(wǎng)、科學(xué)家合作網(wǎng)、交通網(wǎng).近年來(lái),國(guó)內(nèi)外網(wǎng)絡(luò)科學(xué)發(fā)展迅速,它已經(jīng)成為一門廣泛交叉的科學(xué),為眾多領(lǐng)域的復(fù)雜系統(tǒng)研究提供了新思想和新手段.
   實(shí)際網(wǎng)絡(luò)的

2、圖表示方法可以追溯到18世紀(jì)偉大的數(shù)學(xué)家歐拉對(duì)著名的“Konigsberg七橋問(wèn)題”的研究.該研究開辟了數(shù)學(xué)的一個(gè)分支-圖論.很長(zhǎng)一段時(shí)間內(nèi)圖論并未得到很大的發(fā)展,直到1960年由匈牙利數(shù)學(xué)家Erd(o)s和Rényi建立了ER隨機(jī)圖[15]:假設(shè)圖中有N個(gè)節(jié)點(diǎn),每對(duì)節(jié)點(diǎn)之間以概率p連接,則約有pN(N-1)/2條邊,這樣就構(gòu)成了一個(gè)ER模型.研究發(fā)現(xiàn)隨機(jī)圖的許多性質(zhì)都是突然涌現(xiàn)的,也就是說(shuō),對(duì)于任一給定的概率p,要么幾乎每一個(gè)圖都具有

3、某個(gè)性質(zhì),要么幾乎每一個(gè)圖都不具有該性質(zhì).在20世紀(jì)的后40年里,隨機(jī)圖理論一直是人們研究復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)的基本理論.由于大多數(shù)實(shí)際的復(fù)雜網(wǎng)絡(luò)并不是隨機(jī)的,因而ER模型作為復(fù)雜網(wǎng)絡(luò)的基本模型,無(wú)疑存在較大缺陷.因此人們不斷對(duì)ER模型進(jìn)行改進(jìn)以使其更接近于真實(shí)網(wǎng)絡(luò).
   幾乎與此同時(shí),人們還開展了對(duì)“小世界”效應(yīng)的實(shí)驗(yàn)研究.社會(huì)心理學(xué)家 Milgram曾經(jīng)做過(guò)一個(gè)著名的實(shí)驗(yàn),實(shí)驗(yàn)要求參與者把一封信通過(guò)熟人傳送給指定的某個(gè)人,借此探明

4、熟人關(guān)系網(wǎng)絡(luò)中路徑長(zhǎng)度的分布.雖然實(shí)驗(yàn)中大多數(shù)信被丟棄了,但是仍有四分之一的信被送達(dá)目標(biāo)人.根據(jù)最終到達(dá)目標(biāo)者手中的信件的統(tǒng)計(jì)分析發(fā)現(xiàn),從一個(gè)志愿者到目標(biāo)對(duì)象的平均距離為6,這就是著名的“六度分離”推斷.實(shí)驗(yàn)結(jié)果在某種程度上反映了人際關(guān)系的“小世界”特性.1998年Watts和Strogatz將小世界模型引入到了復(fù)雜網(wǎng)絡(luò)的實(shí)際研究當(dāng)中,建立了WS小世界網(wǎng)絡(luò)模型,以描述從完全規(guī)則網(wǎng)絡(luò)到完全隨機(jī)網(wǎng)絡(luò)的轉(zhuǎn)變.稍后Newman和Watts對(duì) W

5、S模型進(jìn)行了改進(jìn),建立了NW小世界網(wǎng)絡(luò)模型[20].WS小世界模型和 NW小世界模型本質(zhì)上是一樣的,它們都反映了實(shí)際復(fù)雜網(wǎng)絡(luò)的一個(gè)性質(zhì):大部分節(jié)點(diǎn)只與它們的鄰近節(jié)點(diǎn)相連,同時(shí)某些節(jié)點(diǎn)也可以與其非鄰近節(jié)點(diǎn)直接相連.WS模型和NW模型的度分布近似為Poisson分布:
   p(k)∝λk/k! e-λ,
   其中λ>0為參數(shù),p(k)為網(wǎng)絡(luò)中隨機(jī)選取一個(gè)節(jié)點(diǎn)其度恰好為k的概率.然而近幾年的大量研究表明,許多實(shí)際網(wǎng)絡(luò)的度分

6、布明顯地不同于 Poisson分布,而是更接近冪律分布:
   p(k)∝ k-γ,
   其中γ為正常數(shù).由于冪律分布沒有明顯的特征長(zhǎng)度,該類網(wǎng)絡(luò)又被稱為無(wú)標(biāo)度網(wǎng)絡(luò).為了解釋冪律分布產(chǎn)生的機(jī)理,1999年Barabási和Albert建立了 BA無(wú)標(biāo)度網(wǎng)絡(luò)模型[21].研究發(fā)現(xiàn)網(wǎng)絡(luò)規(guī)模的不斷增加和網(wǎng)絡(luò)中存在優(yōu)先連接導(dǎo)致了網(wǎng)絡(luò)的度分布服從冪律分布,并且存在少量度相對(duì)很高的節(jié)點(diǎn),但絕大多數(shù)節(jié)點(diǎn)的度相對(duì)很低(即存在“胖尾”)

7、.另外,研究表明等級(jí)組織、聚合和節(jié)點(diǎn)的重建、拷貝節(jié)點(diǎn)也可以導(dǎo)致網(wǎng)絡(luò)具有無(wú)標(biāo)度特性.
   語(yǔ)言是語(yǔ)言學(xué)、心理學(xué)、生物學(xué)等領(lǐng)域共同研究的對(duì)象,是人類文明的結(jié)晶,是一個(gè)經(jīng)過(guò)漫長(zhǎng)演化而來(lái)的復(fù)雜系統(tǒng).Solé認(rèn)為語(yǔ)言在各個(gè)層次上都體現(xiàn)了復(fù)雜網(wǎng)絡(luò)的性質(zhì),包括語(yǔ)音、句法和語(yǔ)義.國(guó)內(nèi)外已經(jīng)在詞同現(xiàn)網(wǎng)絡(luò)、句法網(wǎng)絡(luò)、語(yǔ)義網(wǎng)絡(luò)等方面開展了相應(yīng)的研究.
   英語(yǔ)網(wǎng)絡(luò)的研究已經(jīng)取得了非常豐碩的成果.例如2001年Cancho和Solé在規(guī)模為

8、107個(gè)詞的英語(yǔ)國(guó)家語(yǔ)料庫(kù)的基礎(chǔ)上建立了兩個(gè)詞同現(xiàn)網(wǎng)絡(luò),研究發(fā)現(xiàn)兩個(gè)網(wǎng)絡(luò)都具有小世界特性和無(wú)標(biāo)度特性,并且在每個(gè)網(wǎng)絡(luò)的度分布中都存在兩個(gè)冪律指數(shù)1.5和2.7.2002年Motter和Moura等人基于在線英語(yǔ)詞典,該詞典含有3000多個(gè)概念,根據(jù)單詞之間概念的相似性構(gòu)建了英語(yǔ)的概念網(wǎng)[31].該網(wǎng)絡(luò)也具有小世界特性和無(wú)標(biāo)度特性.2002年Sigman等人基于Wordnet上規(guī)模為66025個(gè)名詞之間的語(yǔ)義關(guān)系,例如反義詞,建立了英語(yǔ)的

9、語(yǔ)義網(wǎng),研究發(fā)現(xiàn)該網(wǎng)絡(luò)具有小世界特性和無(wú)標(biāo)度特性.
   漢語(yǔ)語(yǔ)言網(wǎng)絡(luò)的研究已取得一些研究成果.韋洛霞等人根據(jù)一個(gè)基本詞語(yǔ)集,構(gòu)造了詞法網(wǎng)絡(luò)(如果兩個(gè)詞語(yǔ)包含同一個(gè)漢字,則認(rèn)為其間存在連接,例如“法治”和“法網(wǎng)”).2006年唐璐等人在兩個(gè)大型網(wǎng)絡(luò)HowNet和WordNet的基礎(chǔ)上,構(gòu)建了兩個(gè)語(yǔ)義網(wǎng)絡(luò)[35].2007年劉知遠(yuǎn)等人在《人民日?qǐng)?bào)》(1998年上半年)1300萬(wàn)字左右的人工分詞語(yǔ)料庫(kù)和國(guó)語(yǔ)委5000萬(wàn)字左右的人工分

10、詞語(yǔ)料庫(kù)的基礎(chǔ)上,建立了四個(gè)詞同現(xiàn)網(wǎng)絡(luò)[36].2008年周水庚等人基于大型語(yǔ)料庫(kù) PFR1.0建立了兩個(gè)詞同現(xiàn)網(wǎng)絡(luò).研究發(fā)現(xiàn)上述網(wǎng)絡(luò)都具有小世界特性和無(wú)標(biāo)度特性.
   近年來(lái),人們對(duì)其它語(yǔ)言網(wǎng)絡(luò)也展開了相應(yīng)的研究.例如2004年Cancho等人基于捷克語(yǔ)、德語(yǔ)、羅馬尼亞語(yǔ)構(gòu)建了句法網(wǎng),研究發(fā)現(xiàn)該網(wǎng)絡(luò)也具有小世界特性和無(wú)標(biāo)度特性.2006年Marko(s)ová等人根據(jù)互聯(lián)網(wǎng)上的大量文本建立了斯洛伐克語(yǔ)的兩個(gè)詞同現(xiàn)網(wǎng)絡(luò),研究發(fā)

11、現(xiàn)它們都具有小世界特性.
   中文中的句子是由字和詞構(gòu)成的,而英文中的句子卻是由詞構(gòu)成.因而與詞同現(xiàn)網(wǎng)絡(luò)的構(gòu)造方式一樣,我們也可以建立中文字同現(xiàn)網(wǎng)絡(luò).然而除了我們的會(huì)議論文[40]之外,沒有其它文獻(xiàn)對(duì)中文字網(wǎng)絡(luò)進(jìn)行過(guò)研究.另外,在現(xiàn)有的文獻(xiàn)中,前人的工作是將大量文章合在一起建立一個(gè)網(wǎng)絡(luò),而這些文章來(lái)源于數(shù)據(jù)庫(kù)、WordNet、英語(yǔ)在線詞典等等.每篇中文文章可以建立一個(gè)字同現(xiàn)網(wǎng)絡(luò)和一個(gè)詞同現(xiàn)網(wǎng)絡(luò),每篇英文文章可以建立一個(gè)詞同現(xiàn)網(wǎng)

12、絡(luò).那么每篇文章建立的網(wǎng)絡(luò)是否仍然具有小世界特性和無(wú)標(biāo)度特性呢?另外,通過(guò)對(duì)兩種或多種語(yǔ)言所對(duì)應(yīng)網(wǎng)絡(luò)的統(tǒng)計(jì)參數(shù)的比較,能否得到一些有用的信息呢?為了回答這些問(wèn)題,我們?cè)?3篇現(xiàn)代中文文章(包括四類文體:散文、小說(shuō)、科普和新聞),以及每種類型文章合一后得到的4篇文章的基礎(chǔ)上建立了114個(gè)字、詞同現(xiàn)網(wǎng)絡(luò).研究發(fā)現(xiàn)中文字同現(xiàn)網(wǎng)絡(luò)與詞同現(xiàn)網(wǎng)絡(luò)在結(jié)構(gòu)上是等價(jià)的,也就是說(shuō),它們都同時(shí)具有小世界特性和無(wú)標(biāo)度特性.
   目前正在使用的主要語(yǔ)言

13、有6800多種,其中漢語(yǔ)和英語(yǔ)是使用最多的兩種語(yǔ)言.那么從復(fù)雜網(wǎng)絡(luò)的角度來(lái)看中、英文之間有何異同?在同種語(yǔ)言下四類文章:散文、小說(shuō)、科普和新聞之間又有何異同?中華民族歷史悠久,文化源遠(yuǎn)流長(zhǎng).從復(fù)雜網(wǎng)絡(luò)的角度來(lái)看,不同時(shí)期的漢語(yǔ)之間有何相同之處和不同之處呢?在現(xiàn)有的文獻(xiàn)中,我們還沒有發(fā)現(xiàn)這方面的研究成果.
   在語(yǔ)言演化網(wǎng)絡(luò)模型方面,2001年Dorogovtsev和Mendes為了對(duì)文獻(xiàn)中的度分布進(jìn)行理論分析,通過(guò)在 BA模型

14、的基礎(chǔ)上增加了第t時(shí)刻在已有節(jié)點(diǎn)中產(chǎn)生 ct(c為常數(shù))條新邊的方式建立了DM模型,得到核心詞典所在區(qū)域的冪律指數(shù)為3,而其它詞所在區(qū)域的冪律指數(shù)為1.5[42].2007年 Marko(s)ová在DM模型的基礎(chǔ)上增加了改變邊來(lái)更好的模擬了文獻(xiàn)[30]中的度分布.2008年Yu等人根據(jù)中文字或短語(yǔ)之間的包含關(guān)系構(gòu)建了網(wǎng)絡(luò),并據(jù)此建立了只包括增長(zhǎng)和擇優(yōu)的網(wǎng)絡(luò)模型[44].中華文化經(jīng)歷了5000多年的漫長(zhǎng)發(fā)展變化.如何建立網(wǎng)絡(luò)模型來(lái)刻畫漢

15、語(yǔ)的演化呢?據(jù)我們所知,到目前為止,除了文獻(xiàn)[42,43,44]之外,我們還沒有發(fā)現(xiàn)其它用來(lái)分析語(yǔ)言演化特別是漢語(yǔ)演化的網(wǎng)絡(luò)模型.
   本文分為四章,分別對(duì)中、英文之間的異同,中國(guó)不同時(shí)期的漢語(yǔ)之間的異同進(jìn)行了研究.最后,依據(jù)漢語(yǔ)發(fā)展變化的特點(diǎn)建立了語(yǔ)言演化網(wǎng)絡(luò)模型,并且給出了漢語(yǔ)不同時(shí)期單篇文章所對(duì)應(yīng)字同現(xiàn)網(wǎng)絡(luò)度分布圖的計(jì)算機(jī)仿真.
   在第一章中,我們主要介紹了復(fù)雜網(wǎng)絡(luò)中幾個(gè)基本概念,包括平均最短路徑、聚類系數(shù)、

16、度分布等.
   在第二章中,我們從復(fù)雜網(wǎng)絡(luò)的角度研究了中、英文之間的異同,以及在同種語(yǔ)言下四類文章:散文、小說(shuō)、科普和新聞之間的異同.我們分別選取了現(xiàn)代中、英文文章各200篇,針對(duì)每篇中文文章建立了一個(gè)字同現(xiàn)網(wǎng)絡(luò)和一個(gè)詞同現(xiàn)網(wǎng)絡(luò),針對(duì)每篇英文文章建立了一個(gè)詞同現(xiàn)網(wǎng)絡(luò).研究結(jié)果表明,所有的網(wǎng)絡(luò)都具有小世界特性,并且絕大部分網(wǎng)絡(luò)都具有無(wú)標(biāo)度特性;在某種意義下英文的表述比中文更簡(jiǎn)潔;中文中散文和科普具有較多的共性,而英文中卻是新聞和

17、科普具有較多的共性.
   在第三章中,我們從復(fù)雜網(wǎng)絡(luò)的角度研究了中國(guó)不同歷史時(shí)期文章的異同.我們基于春秋戰(zhàn)國(guó)、兩漢、三國(guó)、兩晉、南北朝、唐、宋、元、明、清、現(xiàn)代共11個(gè)時(shí)期各50篇散文,建立了550個(gè)字同現(xiàn)網(wǎng)絡(luò),每個(gè)時(shí)期的50篇散文合在一起建立一個(gè)大的字同現(xiàn)網(wǎng)絡(luò),共建立了561個(gè)字同現(xiàn)網(wǎng)絡(luò).研究發(fā)現(xiàn)基于單篇文章建立的網(wǎng)絡(luò)中99.6%的網(wǎng)絡(luò)具有無(wú)標(biāo)度特性,95.0%的網(wǎng)絡(luò)具有小世界特性.這為建立語(yǔ)言演化網(wǎng)絡(luò)模型來(lái)研究漢語(yǔ)的發(fā)展變

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論