語料庫語言學(xué)與教學(xué)-華中科技大學(xué)外國語學(xué)院_第1頁
已閱讀1頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1,語料庫在外語教學(xué)研究中的應(yīng)用及方法潘璠計算機輔助語言教學(xué)研究所華 中 科 技 大 學(xué) 外 國 語 學(xué) 院2008年4月,2,Outline:1.語料庫和建庫原則2.語料庫檢索方式3.運用語料庫進行外語研究:方法和實例4.語料庫資源介紹,3,1.語料庫和建庫原則,語料(corpus),又稱為素材,是自然發(fā)生的語言材料(包括書面語和口語)的集合。可以用來作為描述一種語言的出發(fā)點或用于證實有關(guān)一種語言的假設(shè)的

2、手段(Crystal,1991)。語料語言學(xué)(corpus linguistics)是以語篇(text)語料為基礎(chǔ)對語言進行研究的一門學(xué)科,是計算語言學(xué)的一個分支。,4,語料庫,對語料的處理由較為簡單的機器可讀形式發(fā)展到人工或自動詞性附碼(tagging)和句法分析(parsing)的注釋(annotated)形式。利用語料對語言進行研究的成果已被用于辭典編纂和語言教學(xué)等實際工作中,例如1980年由Sinclair主持的Cobuil

3、d計劃。這是Collins出版公司與Birmingham大學(xué)的合作計劃。他們搜集了大量的現(xiàn)代英語口語和書面語素材,逐一分析每個單詞的詞匯、語法、語義、語體和語用特點。根據(jù)這些資料,陸續(xù)出版了一系列COBUILD詞典和語法等工具書。這些書中的例句取自真實的語言素材,詞典中詞的釋義排列順序由語料庫中得出的統(tǒng)計結(jié)果來決定,更加客觀地反映了英語的使用情況。此外,詞的釋義方法更利于英語學(xué)習(xí)和教學(xué)。因此,受到語言學(xué)界和語言教師及學(xué)生的歡迎。,5,語

4、料庫建庫原則,語料庫的主要用途之一是發(fā)現(xiàn)語言的主要的和典型的用法。一般用途語料庫的語料隨機地取自各種來源,在語域方面盡量避免偏向,例如Brown語料庫在語域上分為15個類別(新聞報導(dǎo)、社論、新聞評論、宗教、技能和愛好、學(xué)術(shù)和科技、各類小說和幽默等等)。語料采集方式最根本的目的在于盡可能保證所采集的語料具有代表性,保證所收錄的語料最大程度地涵蓋具體語言在諸如語體、語域、地域變體、作品年代、作者性別、題材類型等多方面的比例合理性,進而保

5、證建成后的語料庫能囊括具體言語行為的普遍規(guī)律性。,6,語料庫建庫原則,表1.“英語用法調(diào)查”語料庫         (I)原始書寫語料(100篇) (A)印刷品(46)         (B)非印刷品(36)人文科學(xué)     6           ┌ 想象性   5               連續(xù)書寫品┤自然科學(xué)     7           └ 資訊性   6教學(xué)       6  ┌ 一般新聞  4      

6、    ┌親密       6報刊┤            社交書信┤平等      4  └ 專門報導(dǎo)  4          └疏遠       4文書       4           ┌平等     4               非社交書信1┤法律       3           └疏遠     4論說文      5      日記           4散文小說     7(C)口語(18)    

7、        ┌資訊性        4劇本       4      談話┤                 └想象性       2正式演說(經(jīng)轉(zhuǎn)寫)  3      故事           2廣播新聞     3,7,語料庫建庫原則,(Ⅱ)原始口說材料(100)篇有準(zhǔn)備的演說(未轉(zhuǎn)寫)   6     ┌   ┌親密   24    ┌演說      10     │不公開┤自發(fā)言語┤  ┌體育   4    

8、 │   └疏遠   10    └評論┤          │   ┌親密   20       └其他   4   交談┤可公開┤                  │   └疏遠   6                  │  ┌親密    10                  │電話┤                  └  └疏遠    6,8,2.語料庫檢索方式,較為典型的檢索工具是1996年牛津大學(xué)出版社推出

9、的Mike Scott所編制的Wordsmith軟件包。這套軟件不僅提供了詞語檢索(Concordancing)并共現(xiàn)上下文的常用功能,還可統(tǒng)計計算出索引單位搭配行為的T(或Z)值、信息相關(guān)值(即MI:mutual information)和x平方值,并予以列表顯示。它還能快速識別某種文體中經(jīng)常出現(xiàn)的多詞集合,且提供在整個語料庫中對英語教師和英語學(xué)習(xí)者具有價值的語言特征。就連傳統(tǒng)的關(guān)鍵詞(keyword)功能在Wordsmith軟件包中

10、也已賦予新用途,如可列選出在特定文本或文體類型中出現(xiàn)頻率特別高的詞,以幫助研究者得出某種語域或文體的顯著詞匯特征。,9,3.運用語料庫進行外語研究:方法和實例3.1 分析詞語的方法3.1.1 不同語域詞頻差異的調(diào)查 3.1.2 根據(jù)搭配調(diào)查語義差異3.1.3 根據(jù)搭配調(diào)查語義韻差異3.2 學(xué)習(xí)者中介語的調(diào)查3.2.1 學(xué)習(xí)者與本族語者之間的對比3.2.2 不同母語背景學(xué)習(xí)者之間的對比3.2.3 不同層次學(xué)習(xí)者之間的對比

11、,10,3.1 分析詞語的方法,3.1.1 不同語域詞頻差異的調(diào)查 Rundell就曾利用BNC的口語部分調(diào)查發(fā)現(xiàn):began在書面語中出現(xiàn)的次數(shù)幾乎是started的兩倍,而在口語中出現(xiàn)的頻率要比started低得多。,11,certain, sure, definite在社會科學(xué)和小說中的 頻率分布圖,不同語域詞頻差異的調(diào)查,12,certain, sure, def

12、inite不同語域頻率分布差異,在社會科學(xué)類文本中,用的最多是certain(1百萬詞中359次),其次是definite(114次),sure最不常見(74次);而在小說類型的文本中,sure比certain要常見得多(353次對179次),而definite就極為少見(僅11詞次)。這說明在表達比較嚴謹?shù)奈谋局?,更傾向于使用certain和definite,而在表達相對自由的小說中,較為口語化的sure用得更多。不同語域同義詞的取舍

13、有一定的指導(dǎo)意義,形成一定的優(yōu)先原則。如在社會科學(xué)類的文本中,可優(yōu)先考慮certain,其次為definite;而在小說中,則sure將是首選,其次才為certain。,13,3.1.2 根據(jù)搭配調(diào)查語義差異: take a job 和take on a job,14,3.1.2 根據(jù)搭配調(diào)查語義差異: take a jo

14、b 和take on a job,觀察take a job索引例句的搭配,尤其是右搭配,發(fā)現(xiàn)與它共現(xiàn)的詞有:(1)工作類別:as a European commissioner,as a pizza delivery, with the Ministry of the Interior, modeling,in football(2)工作時間:part-time,summer(3)工作報酬:paying 由此可以看出,t

15、ake a job多指“干什么樣的具體工作”,與之相關(guān)的有“工作付多少報酬,工作是全職或兼職”等,核心意思是“就業(yè)”。,15,3.1.2 根據(jù)搭配調(diào)查語義差異: take a job 和take on a job,同樣觀察take on a job的索引例句可以看到與其共現(xiàn)的詞語有:(1)工作內(nèi)容(并非職業(yè)):scrapping excess capacity, compili

16、ng the electoral register, defending, grain preparation(2)工作壓力:stressful job-loads,demanding,stress-loaded(3)無報酬:unpaid 可見,take on a job多表示“把責(zé)任賦予某項工作,不管有無報酬”,其它未在此列出的搭配詞,還有諸如role(s), responsibility/ies, task(s)

17、, work, commitment(s), burden(s), challenge(s)等,它們都顯示出take on a job的核心在于“責(zé)任”。,16,3.1.3 根據(jù)搭配調(diào)查語義韻差異:cause和lead to,cause多與表示疾病、傷害、不佳情緒、問題、困難等含義的詞語一起出現(xiàn),幾乎全含有否定和消極的意味,這說明cause導(dǎo)致的基本都是壞的結(jié)果,語義韻特征上傾向于否定和消極。 rash, greater injury

18、, complaint, irritation, severe embarrassment, shortages, initial problems, fluid retention, styling problems, difficulty, fatal problems, all sorts of havoc, anxiety, slowdown in deficiency disease, more violence, later

19、 harm, poor weather, a host of problems, terrible damage, heart attack, tension, cancer damage, trouble, sorrow, confusion, lack.,17,3.1.3 根據(jù)搭配調(diào)查語義韻差異:cause和lead to,而對lead to 搭配的觀察,則沒有發(fā)現(xiàn)明顯的傾向性:其客體既可是肯定的,如“notable improv

20、ement, great successes,permanent opportunities, new developments, professional qualification, improved human health, happiness,formation, specification”等;也可是否定的,如“l(fā)oss of life, more problems,unfair advantage and conflic

21、t, immediate withdrawal, drug taking and crime, anxiety attacks, serious problems, water loss and damage, scarring, holes, prosecution increased risk”等。就整體分布而言, 兩者幾乎平分秋色。從這一點來看,lead to不存在語義韻的顯著差別,既可引起好的結(jié)果,也可導(dǎo)致壞的結(jié)果。,18,

22、語義韻差異的拓展研究:,A.義韻沖突—反諷的出現(xiàn)義韻沖突不僅是非誠意性的信號,也可能是反諷出現(xiàn)的標(biāo)志。因為任一反諷性言語行為的實施過程都存在著非誠意性,非誠意性因而成為判斷話語是否具有反諷性的主要標(biāo)尺,所以在一定條件下,義韻沖突---非誠意性--反諷成立。說話人(作者)有時為了實現(xiàn)反諷,會故意違反正常的語義韻律,有意打破人們的期待模式,使聽者(讀者)因為驚異于話語語義結(jié)構(gòu)的不一致,而推測出說話人的反諷意圖。,19,A 義韻沖突—反諷的

23、出現(xiàn),語用學(xué)認為,話語具有什么樣的言外之力,是否具有反諷性,須借助語境和言外之力指示手段才能判斷(涂靖,2000:52)。言外之力指示手段之一就是話語的語義結(jié)構(gòu)中的沖突,即話語中含有明顯違反"選擇性限制"的用詞,如例1中的thank 和refuse to help,例2中的congratulate和stupid。 1.I thank you for your refusing to help me.

24、 我感謝你拒絕幫助我。 2.I congratulate you on your stupid speech at the meeting. 我祝賀你在會上作出的愚蠢發(fā)言。,20,B 詞典編撰,語義韻律作為詞語語義的一部分,對學(xué)習(xí)者而言是很重要的信息,能幫助他們在合適的語境中正確地使用該詞。但學(xué)習(xí)者賴以獲取信息的詞典是否提供了這方面的信息呢?詞典中對rife的解釋:Websters1979年版:1. prevalen

25、t; frequently or commonly occurring; current.2. abundant; plentiful.3. filled; abounding; followed by with. 在牛津現(xiàn)代高級雙解詞典1988年版中,rife中文釋義為"流行的;普遍的",英文釋義為"widespread; common",此外沒有任何附加說明。兩部詞典的釋義都沒有反映出rif

26、e內(nèi)含的貶義,使學(xué)習(xí)者極易誤認為rife等同于釋義中的abundant,plentiful,widespread,common等詞,可適用于同樣的語言環(huán)境。,21,B 詞典編撰,利用語料庫編撰的Collins COBUILD English Language Dictionary 1987年版才清楚地描述了rife的語義韻律特征:1.If you say that something bad or unpleasant is rife,

27、 you mean that it occurs very frequently.2.If a place is rife with something bad or pleasant, it contains a lot of it.所附的例句更清楚地說明了這一特征:1.Bribery and corruption in the government service were rife.2.Graduate unemploymen

28、t is rife.同樣用語料庫編撰的朗文當(dāng)代英語詞典1995年版也以類似的形式描述了rife的語義韻律特征。 語義韻律在詞典編撰中應(yīng)該受到越來越多的重視。雖然目前對語義韻律的分析調(diào)查還沒有系統(tǒng)化和規(guī)范化,相當(dāng)數(shù)量的詞語(如provide, impressive,peddle,dealings等)的語義韻律特征在有的詞典中并未進行描述,從而降低了詞典對于學(xué)習(xí)者的指導(dǎo)作用。,22,3.2 學(xué)習(xí)者中介語的調(diào)查,中介語對比分析的方法(Con

29、trastive Interlanguage Analysis,Granger 1998) 3.2.1 學(xué)習(xí)者與本族語者之間的對比參照語料庫為:英語本族語語料庫對比語料庫為:學(xué)習(xí)者語料庫,23,3.2.1 學(xué)習(xí)者與本族語者之間的對比,研究實例:非英語專業(yè)研究生寫作中連接詞用法的語料庫調(diào)查研究試圖回答以下問題:在一批最常用的連接詞的使用頻率和選擇傾向方面,國內(nèi)非英語專業(yè)研究生是否和本族語使用者存在著顯著差異?在使用某個連接詞表

30、達語義關(guān)系方面,國內(nèi)非英語專業(yè)研究生是否和本族語使用者存在著顯著差異?本研究分以下步驟:首先,調(diào)查20個連接詞在兩個語料庫中的出現(xiàn)頻率,并按頻率高低進行排序和比較,以回答第一個問題。它們分別是:and, because, but, for example, for instance, furthermore, however, in addition, in fact,in other words, indeed, neverthel

31、ess, not only…but also, on the other hand, so, then, therefore, though, thus, while。然后,選擇位于句首的And,對其語義關(guān)系在兩個語料庫中的分布差異進行調(diào)查分析,以回答第二個問題。,24,前20位連接詞排序和出現(xiàn)頻率(每10萬詞次出現(xiàn)頻率),25,And語義關(guān)系的分布比較:,26,And語義關(guān)系的分布比較:增補、因果、轉(zhuǎn)折、比較、層進、引題、原因、說明

32、、列舉、總結(jié),27,若需更多細節(jié),可查閱以下文章:,1.非英語專業(yè)研究生寫作中連接詞用法的語料庫調(diào)查 《現(xiàn)代外語》2004年第2期2.語義韻律的語料庫調(diào)查及應(yīng)用研究 《當(dāng)代語言學(xué)》2003年第2期3.語料庫語言學(xué)與外語教學(xué)思想的轉(zhuǎn)變 《外語學(xué)刊》

33、2000年第4期4.語料庫規(guī)模增長原因探查 《外語學(xué)刊》2004年第3期5.學(xué)習(xí)者語料庫與外語教學(xué)和研究 《北京第二外國語學(xué)院學(xué)報》2006年第4期6.語料庫研究與外語教材編寫 《武警指揮學(xué)院學(xué)報》2005年第5期7.基于語料庫的詞語差異性特征調(diào)查 《山東外語教學(xué)》2000年第4

34、期8.語料庫語言學(xué)的最新動態(tài)和未來發(fā)展趨勢 《山東外語教學(xué)》1998年第4期,28,常用語料庫網(wǎng)址,中國學(xué)習(xí)者英語語料庫 CLEC介紹 在線檢索 WordSmith Tool 下載 在線檢索英國國家語料庫 BNC 英漢平行語料庫 The Babel English-Chinese Parallel Corpus 臺灣中央研究院 現(xiàn)代漢語平衡語料庫 俄國國家語料庫(俄語) Collin

35、s Sampler of the Bank of English British National Corpus American National Corpus,29,常用語料庫資源鏈接匯集,http://202.204.128.82/sweccl/Corpushttp://www.ddyyx.com/netprints/Corporalink/Corporalink.htm1. BNC-World Simple Search

36、 ☆☆☆ http://thetis.bl.uk/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context.2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including mon

37、olingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora.English: http://www.edict.com.hk/concordance/WWWConcappE.htmEnglish: http://www.lextutor.ca/concordancers/concord_e.html

38、Parallel: http://www.edict.com.hk/concordance/paralleltexts/3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ http://www.collins.co.uk/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is com

39、posed of 56 million words of contemporary written and spoken text.,30,常用語料庫資源鏈接匯集,4. New BNC interface - VIEW: ☆☆☆☆☆ http://view.byu.edu/5. Samples (about 2 million words) from the British National Corpus: both writ

40、ten and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html6. CLEC online concordancing ☆☆☆☆ http://www.clal.org.cn/corpus/EngSearchEngine

41、.aspx CLEC收集了包括中學(xué)生、大學(xué)英語4級和6級、專業(yè)英語低年級和高年級在內(nèi)的5種學(xué)生的語料一百多萬詞,并對言語失誤進行標(biāo)注。For an introduction of the corpus, its error tagset and some statistics, see http://www.clal.org.cn/baseinfo/achievement/Achievement1.htm,31,語料庫書籍推薦:

42、,Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引進) Granger, S. et al. (eds.). 2003. Corpus-based Approaches to Contrastive Linguistics and Translat

43、ion Studies《基于語料庫的語言對比和翻譯研究》. Amsterdam: Rodopi. (外研社引進) Gries, Stefan Thomas. 2004. Multifactorial Analysis in Corpus Linguistics: A Study of Particle Placement. Beijing: Peking University Press. (北大出版社引進) Hunston, Su

44、san. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界圖書出版社引進) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引進),32,語料庫書籍推薦:,Nattinger, James R. &

45、 Jeanette S. DeCarrico. 1992. Lexical Phrases and Language Teaching. Oxford: Oxford University Press. (外教社引進) Sinclair, John. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press. (外教社引進) Thomas, Jen

46、ny & Mick Short. 1996. Using Corpora for Language Education. London: Pearson Education. (外研社引進) Zanettin, F., et al. (eds.). 2003. Corpora in Translator Education《語料庫與譯者培養(yǎng)》. Manchester: St. Jerome Publishing. (外研社引進

47、),33,語料庫書籍推薦:,蔡金亭,2003,《語言因素對英語過渡中使用——一般過去時的影響》。北京:外語教學(xué)與研究出版社。 何安平(主編),2004,《語料庫在外語教育中的應(yīng)用:理論與實踐》。廣州:廣東高等教育出版社出版。 何安平,2004,《語料庫語言學(xué)與英語教學(xué)》。北京:外語教學(xué)與研究出版社。 華南師范大學(xué)外國語學(xué)院編,2005,《語料庫語言學(xué)的研究與應(yīng)用》。長春:東北師范大學(xué)出版社。 黃昌寧,李涓子著,2002,《語料庫

48、語言學(xué)》。北京:商務(wù)印書館。 濮建忠,2003,《學(xué)習(xí)者動詞行為:類聯(lián)接、搭配及詞塊》。開封:河南大學(xué)出版社。 王建新,2005,《計算機語料庫的建設(shè)與應(yīng)用》。北京:清華大學(xué)出版社。,34,語料庫書籍推薦:,王克非等,2004,《雙語對應(yīng)語料庫研制與應(yīng)用》。北京:外語教學(xué)與研究出版社。 王立非、梁茂成等,2007,《計算機輔助第二語言研究方法與實用》。北京:外語教學(xué)與研究出版社。 衛(wèi)乃興,2002,《詞語搭配的界定與研究體系》。

49、上海:上海交通大學(xué)出版社。 衛(wèi)乃興,李文中,濮建忠等,2005,《語料庫應(yīng)用研究》。上海:上海外語教育出版社。 文秋芳、王立非、梁茂成,2005,《中國學(xué)生英語口筆語語料庫》。北京:外語教學(xué)與研究出版社。 楊達復(fù),2000,《英語錯誤型式分析》。西安:陜西人民出版社。 楊惠中、桂詩春,2003,《中國學(xué)習(xí)者英語語料庫》。上海:上海外語教育出版社。 楊惠中、衛(wèi)乃興,2005,《中國學(xué)習(xí)者英語口語語料庫建設(shè)與研究》。上海:上海外語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論