版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、南京師范大學(xué)碩士學(xué)位論文含“的”最長名詞短語的自動識別姓名:錢小飛申請學(xué)位級別:碩士專業(yè):語言學(xué)及應(yīng)用語言學(xué)指導(dǎo)教師:陳小荷20070501A b s t r a o tT h e i d e n t i f i c a t i o n o f ‘‘M a x i m a l N o u nP h r a s e ( M N P l ”c a r ls u p p l y t h e A u t o m a t i eP a r s i
2、 n gs y s t e m a n d t h e M a c h i n e T r a n s l a t i o n s y s t e m w i t h s t r o n g s u p p o r t s .F o r m e rr e s e a r c h e sf o c u s e do nt h e a p p r o a c h e so f i d e n t i f y i n gt h eb o u
3、n d a r i e so f t h ep h r a s ew h i l el a c k e da n i n - d e p t hs t u d yo fM N P i t s e l f .A s w h a tC h i n e s eG r a m m e r r e s e a r c h e ss h o w s .m o s t m o d i f i e r - c o r es t r u c t u r
4、e s c a n b e d i v i d e d i n t o a g g l u t i n a t i n g - s t y l e s t r u c t u r e s a n da s s o r t e ds t r u c t u r e s .a(chǎn) c c o r d i n g t ot h e e x i s t e n c e o f “d e ' ’.L o o k i n gi n s i d
5、et h et w o s t r u c t u r e s ,b e c a u s e ‘' d e .P h r a s e ”e x i t s .t h e s ea s s o r t e ds t r u c t u r e s w i t h “d e ”c a l la c c e p tm o r ep a r t so fs p e e c h a sw e l la ss y n t a c t i c
6、s t r u c t u r e s .A n dl o o k i n g o u t s i d e ,t h e i rs y n t a x a c t i o n sa i s oh a v es o m ed i f f e F e n c e s .T h e r e f o r e .C h i n e s eM N P s h o u l db ed i v i d e di n t o t w ot y p e s
7、 :t h eM N Pw h i c h c o n t a i n s ‘' d e ”( d e M N P ) .a(chǎn) n dt h e M N P w h i c h d o e s n ’tc o n t a i n ‘' d e ”.T h i sp a p e r f i r s ti n v e s t i g a t e st h e i n s i d ec o n s t r u c t i o n
8、 ,t h es y n t a xd i s t r i b u t i o n ,a n d t h el i n e a rd i s t r i b u t i o no fd e M N P c o m p r e h e n s i v e l y , t h e n i ta d v a n c e s as t r a t e 盯o f “I d e n t i f y t h e r i g h t b o u n d
9、 a r yf i r s t ,t h e n i d e n t i f y t h e l e l i o n e ”.i ta i s o m a k e s a f u r t h e rr e s e a r c ho nt h e i d e n t i f i c a t i o n o fd e M n mT h i s p a p e ri n c l u d e st w op a r t s .O v i e s
10、 t u d i e st h ea u t o m a t i ci d e n t i f i c a t i o no f t h ed e M N Pw h i c h c o n t a i n s ‘' d e - p h r a s e ’’r a t h e r t h a nm o d i f i e r - c o r e s t r u c t u r e sw i t h ‘' d e ”.I n
11、 t h i sp a r tw ea n a l y s e t h ed i f f e r e n t f e a t u r e so f t h e r i g h tb o u n d 撕e sa sw e l la st h el e f tb o u n d a r i e so f t h ep h r a s ec o m p r e h e n s i v e l y , a n dr e c o g n i z
12、et h e t w ob o u n d 撕e sb y t h e m e t h o do f ‘' B o u n d a r yD i s t r i b u t i o n P r o b a b i l i t y ”.T h e o t h e rp a r t s t u d i e s t h ea u t o m a t i c i d e n t i f i c a t i o n o ft h ed e
13、 M N P w h i c h c o n t a i n sm o d i f i e r - c o r e s t r u c t u r ew i t h “d e ”.I ta l s od i s c u s s e st h ef e a t u r e so ft h e p h r a s eb o u n d a r y , a n d i tt r a i l s f o r i l l St h ep h r
14、a s ei d e n t i f i c a t i o nt a s ki n t oa n o t h e r t h a ti st or e c o g n i z et h es y n t a xS u b j e c ta n dt h es y n t a xO b i e c t .T h i sp a r t a l s o a d o p t st h em e t h o d“B o u n d a r yD
15、 i s t r i b u t i o nP r o b a b i l i t y ”t or e c o g n i z et h er i g h t b o u n d a r y .F u r t h e r m o r e ,w eb r i n g f o r w a r d aC o l l o c a t i o nM o d e l t or e c o g n i z et h el e f tb o u n d
16、 a r y .T h i sM o d e lr e f e r st of o u rc o l l o c a t i o n t y p e s :p r e p o s i t i o nf r a m e ,p r e p o s i t i o n - v e r b c o l l o c a t i o n ,p r e p o s i t i o n - o b j e e lc o l l o c a t i o
17、n ,a n dv e r b ·o b j e c tc o l l o c a t i o n .T h ep a p e ra d o p t s t w om e t h o d s t o r e s o l v e t h ep r o b l e mo fd a t as p a r s e .O n e i s t h e“C o m p o u n dM o d e l ”.a(chǎn) n dt h eo t h e
18、 ri st h e ‘' T r a i n i n ga l g o r i t h mi n s t r u c t e d b yr u l e s ”.T h eC o m p o u n dM o d e lo p t i m i z e dt h em o d e ld a t ao b v i o u s l yb y b a c k i n g o f rt o t h eh i s t o r ye q u
19、i v a l e n t c l a s s ,s u c ha s c o n d i t i o n a l s u b - p r o b a b i l i t y , r e l a v a n tf r e q u e n c y , a n ds e m a n t i cc l a s s .T os o l v et h ei n s u 伍c i e n ta m o u n to fc o l l o c a t
20、 i o ni t e m si nt h et m i n i n gc o r p u s .t h et r a i n i n ga l g o r i t h mi n s t r u c t e db yr u l e sg e tc o l l o c a t i o n sd i r e c t l yf r o mt h et e s tc o r p u su s i n gt h r e e r u l e s .
21、A n d i tr a i s e st h e r e c a l lr a t eb y m o r e t h a n 2 7 %.A c o r p u s ( a b o u t0 .6 4m i l l i o nc h a r a c t e r s ) o f n e w si su s e df o rd a t at r a i n i n ga n d a n o t h e r( a b o u t0 .3 2
22、m i l l i o nc h a r a c t e r s ) i su s e d f o rt e s t .T h e w h o l e i d e n t i f i c a t i o ns y s t e ma c h i e v e sa b o u t7 0 .4 2 %i nF .s c o r e .I ns t r a t e g y , t h ei d e n t i f i c a t i o n o
23、 f t h er i g h tb o u n d a r yt a g sm o r et h a n9 1p e r c e n to b j e c t s .w h i c he f f i c i e n t l ys u p p o r t st h e i d e n t i f i c a t i o no f t h e l e f to n e .A n dt h el a t t e r a c h i e v
24、e s a b o u t7 6 .1 6 %i nF —s c o r e .A s t h e q u a l i t y o ft h e c o l l o c a t i o n d a t ai m p r o v e s ,t h e s y s t e m c a n g e tab e t t e re f f e c ti ne x p e c t a t i o n .K e yW o r d s :M N P ;
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 漢語最長名詞短語的自動識別與分析.pdf
- 中文最長名詞短語識別研究.pdf
- 漢語基本名詞短語的自動識別模型.pdf
- 漢語介詞短語的自動識別.pdf
- 面向框架語義的漢語短語自動識別研究.pdf
- 基于最大熵的漢語介詞短語自動識別.pdf
- 基于簡單名詞短語的漢語介詞短語識別研究.pdf
- 78392.中學(xué)維吾爾文物理教材名詞自動識別研究
- 自動識別技術(shù)
- 漢語簡單名詞短語的識別及應(yīng)用.pdf
- 基于MATLAB的房顫自動識別.pdf
- 自動識別技術(shù) (1)
- 面向中文信息處理的漢語復(fù)句中書讀短語的自動識別研究.pdf
- 車型自動識別研究.pdf
- 車牌自動識別系統(tǒng)的研究.pdf
- 通信信號調(diào)制樣式的自動識別.pdf
- 鐵路客票自動識別技術(shù)的研究.pdf
- 中文名詞短語識別研究.pdf
- 車輛自動識別系統(tǒng)的研究.pdf
- 測井曲線的自動識別與提取.pdf
評論
0/150
提交評論