基于計(jì)量語言學(xué)指標(biāo)的漢英文本特征比較研究.pdf_第1頁
已閱讀1頁,還剩220頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、計(jì)量語言學(xué)是以真實(shí)語料為基礎(chǔ)、用精確的方法來研究語言結(jié)構(gòu)與發(fā)展規(guī)律的語言學(xué)分支學(xué)科。近年來用于文本特征研究的計(jì)量語言學(xué)指標(biāo)不斷涌現(xiàn),我們不僅可以使用這些指標(biāo)來驗(yàn)證傳統(tǒng)定性研究的某些結(jié)論,而且還可以借此發(fā)現(xiàn)其它研究方法難以發(fā)現(xiàn)或不能很好解釋的文本特征規(guī)律。本文選取的是綜合反映語言系統(tǒng)性特征的計(jì)量語言學(xué)指標(biāo),選用“漢英對比研究”語料庫中代表性語體的文本特征,展開跨語體、跨語言的共時(shí)和語言類型學(xué)比較。研究語料庫為蘭卡斯特漢語語料庫(LCMC)

2、和弗瑞伯格-布朗美式英語語料庫(Frown)。我們首先將文本特征進(jìn)行量化,然后對文本特征的使用頻率和分布頻率等數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)處理,尋找這些語言現(xiàn)象背后的數(shù)理規(guī)律,并從語言學(xué)角度解讀其成因,為語言研究提供思路。
  全文共分為六章。第一章為引言,首先對國內(nèi)外有關(guān)文本特征的質(zhì)性研究、量化研究、以及漢英對比研究的成果進(jìn)行梳理,在此基礎(chǔ)上提出本文的研究問題。第二章為語料和研究方法的介紹,包括LCMC和Frown兩個(gè)語料庫、重要的計(jì)量語言學(xué)

3、指標(biāo)(熵、h點(diǎn)和主題集中度)、計(jì)量工具等。第三、四、五章是結(jié)合具體的計(jì)量語言學(xué)指標(biāo)進(jìn)行的實(shí)證研究,分別對漢英不同語體在句法變化性、詞匯豐富性、以及主題集中程度方面的差異進(jìn)行比較。第六章為全文結(jié)論,總結(jié)論文的主要發(fā)現(xiàn)及不足,并指出未來的研究方向。
  第三章“基于‘熵’的漢英句法變化性及體標(biāo)記差異考察”。熵是反映語言數(shù)學(xué)面貌的一個(gè)重要信息論參數(shù),用以對語言的信息量進(jìn)行量化描寫。我們研究的“詞位置相對熵”、“詞性位置相對熵”和“體標(biāo)記

4、語言結(jié)構(gòu)相對熵”這3個(gè)指標(biāo)都具有一定揭示句法變化程度的意義?!霸~位置熵”和“詞性位置熵”用于研究不同語體的句法差異,其最顯著的特點(diǎn)是考慮了句中相繼出現(xiàn)的詞、詞性之間的相互影響以及相互關(guān)聯(lián)強(qiáng)度,這是其它研究方法都不太可能做到的。使用“詞性位置相對熵”的均值作為衡量不同語體的句法靈活度可能更為可靠。統(tǒng)計(jì)檢驗(yàn)表明:“詞性位置相對熵”和“體標(biāo)記語言結(jié)構(gòu)相對熵”在漢英的不同語體之間存在差異,尤其是“敘述性Vs.說明性”語體之間差異顯著。
 

5、 第四章“基于‘熵’的漢英不同語體詞匯豐富性比較”??疾觳煌Z體詞匯豐富性的差異,實(shí)際是研究不同語體“詞匯類型概率分布”存在的差異。本章把詞匯豐富性放入和“詞匯類型概率分布”具有關(guān)聯(lián)的三個(gè)分布函數(shù)中進(jìn)行考察:“型例比分布”、“型例比-熵分布”和“詞匯頻率概貌分布”。經(jīng)研究,“型例比分布”和“型例比-熵分布”可以作為漢英不同語體的區(qū)別性參數(shù)。
  由于“型例比-熵分布”可以看成是洛倫茲曲線的一種,即“無標(biāo)度網(wǎng)絡(luò)洛倫茲曲線”,我們借鑒

6、“無標(biāo)度網(wǎng)絡(luò)洛倫茲曲線”中的“α”(表示冪函數(shù)曲線的上凸程度)來比較不同語體“型例比”(TTR)的差異,是對不同語體詞匯豐富性最直接地比較。詞匯豐富性在漢英中皆表現(xiàn)為政府公文最低,小說最高,新聞間于兩者之間。
  第五章“漢英不同語體‘主題集中度’的差異”。本章使用主題集中度(TC)、第二主題集中度(STC)和比例主題集中度(PTC)這三個(gè)指標(biāo),從語義層面上對政府公文、新聞和小說三種語體的差異進(jìn)行量化比較。該方法有別于眾多“內(nèi)容分

7、析”范式的一點(diǎn)在于:可以經(jīng)由“主題詞”來進(jìn)一步精確量化整個(gè)文本主題集中的程度,從而為后續(xù)的統(tǒng)計(jì)假設(shè)檢驗(yàn)奠定基礎(chǔ)。我們將三種語體的三種主題集中度的數(shù)值作為特征向量,使用“圍繞中心點(diǎn)聚類”(PAM)和“層次聚類”(HA)進(jìn)行分析,發(fā)現(xiàn)這些特征向量大都能正確聚集到自己的語體簇。聚類結(jié)果較為理想的原因有二:第一,每一種主題集中度的數(shù)值在每一種語體中都呈現(xiàn)出“層級式”差異,且三種主題集中度的數(shù)值在三種語體之間也呈現(xiàn)出“層級式”差異;第二,三種語體

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論