2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩113頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、當(dāng)前,文本挖掘、語音識(shí)別、生物信息發(fā)掘和視覺對象分類等應(yīng)用領(lǐng)域面臨的一個(gè)現(xiàn)實(shí)問題是:無標(biāo)注樣例數(shù)目眾多,易于獲得;標(biāo)注樣例數(shù)量稀少,難于獲得。作為機(jī)器學(xué)習(xí)領(lǐng)域的重要研究方向之一,主動(dòng)學(xué)習(xí)算法可以同時(shí)利用標(biāo)注樣例和無標(biāo)注樣例來構(gòu)建高精度分類模型,因此,本文對主動(dòng)學(xué)習(xí)算法中采樣策略進(jìn)行深入研究,并將所提出采樣策略算法應(yīng)用于視覺對象分類任務(wù)中。
  視覺對象的語義理解是計(jì)算機(jī)視覺領(lǐng)域的重要問題。網(wǎng)絡(luò)技術(shù)的快速發(fā)展使得短時(shí)間內(nèi)獲取大量圖像

2、成為可能,但對這些無監(jiān)督或弱監(jiān)督圖片中包含的視覺對象進(jìn)行分類成為一個(gè)艱巨、富有挑戰(zhàn)性的任務(wù)。越來越多的科研人員致力于發(fā)展有效的機(jī)器學(xué)習(xí)算法,在已標(biāo)注圖像集上建立模型,繼而利用學(xué)習(xí)到的知識(shí)判斷和劃分視覺對象所屬的類別。這一做法通常需要大量標(biāo)注圖像用于模型訓(xùn)練過程,而為這些圖像添加精確的標(biāo)注信息需要花費(fèi)大量的人力、物力,因此,迫切需要充分利用標(biāo)注者資源,減少人工標(biāo)注代價(jià),旨在以盡量低的標(biāo)注代價(jià)建立較高精度的模型。
  為了更加有效地收

3、集和利用圖像的標(biāo)注信息,主動(dòng)學(xué)習(xí)算法提供了一種解決途徑。算法隨機(jī)選擇少量圖像并獲取其標(biāo)注信息,通過模型與標(biāo)注者進(jìn)行交互的形式,利用已收集標(biāo)注圖像中的語義信息和知識(shí),選擇部分最有助于模型訓(xùn)練的無標(biāo)注圖像提交標(biāo)注者進(jìn)行標(biāo)注。主動(dòng)學(xué)習(xí)算法的優(yōu)勢是通過讓學(xué)習(xí)系統(tǒng)向標(biāo)注者進(jìn)行提問的方式達(dá)到減少標(biāo)注者工作量的目的,這不僅充分利用了珍貴的標(biāo)注者資源,而且更好的將人類知識(shí)遷移到學(xué)習(xí)系統(tǒng)中。因此,發(fā)掘高效的主動(dòng)學(xué)習(xí)算法對視覺對象的分類與檢索研究具有重要的

4、理論價(jià)值和現(xiàn)實(shí)意義。
  目前,雖然部分主動(dòng)學(xué)習(xí)算法已經(jīng)用于減少對象分類與檢索任務(wù)中的標(biāo)注代價(jià),并取得了良好的效果,但是,這些算法中往往存在一些理想化的假設(shè)條件,導(dǎo)致其不能很好地適用于噪聲或者未標(biāo)注圖像數(shù)據(jù)較大條件下的學(xué)習(xí)任務(wù)。鑒于這一點(diǎn),本文以主動(dòng)學(xué)習(xí)算法作為研究對象,在已有采樣策略的基礎(chǔ)上,結(jié)合統(tǒng)計(jì)學(xué)理論,發(fā)掘噪聲或未標(biāo)注圖像數(shù)據(jù)較大條件下有效的樣例選擇算法。目的是以盡量低的標(biāo)注和時(shí)間代價(jià)獲得較高精度的分類模型,并以此為基礎(chǔ),

5、構(gòu)造有效的主動(dòng)學(xué)習(xí)算法模型應(yīng)用于視覺對象分類與檢索實(shí)踐當(dāng)中。主要的研究工作和創(chuàng)新點(diǎn)如下:
  (1)提出一種基于模型風(fēng)險(xiǎn)的加權(quán)樣例選擇算法
  針對主動(dòng)學(xué)習(xí)算法中訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)具有相同分布這一理想化假設(shè)條件,提出一種基于模型風(fēng)險(xiǎn)的加權(quán)樣例選擇算法,旨在解決因分布差異導(dǎo)致的采樣算法效果下降,以及在給定標(biāo)注代價(jià)條件下分類模型訓(xùn)練效果不理想的問題。算法對每個(gè)樣例設(shè)置權(quán)重,使用訓(xùn)練數(shù)據(jù)與無標(biāo)記數(shù)據(jù)上模型風(fēng)險(xiǎn)的期望誤差來估計(jì)樣例對

6、應(yīng)權(quán)重值,并根據(jù)該值選擇最有助于分類模型訓(xùn)練的樣例。算法與其它同類方法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果證明分類模型的精度得到有效提高。
  (2)提出一種批量選擇樣例的訓(xùn)練集構(gòu)造方法
  針對主動(dòng)學(xué)習(xí)算法面臨的因視覺對象數(shù)量多,但同類別對象數(shù)量稀少而造成的正反例數(shù)量不平衡這一實(shí)際問題,提出一種批量選擇樣例的訓(xùn)練集構(gòu)造方法。目的是在相同標(biāo)注代價(jià)條件下,克服大量反例對分類模型的不利影響,提高分類模型的精度。算法利用分類模型風(fēng)險(xiǎn),通過最小化模

7、型風(fēng)險(xiǎn)的方差來構(gòu)造訓(xùn)練分布,并依據(jù)該分布選擇樣例,建立訓(xùn)練集。算法與其它同類方法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果證明,在模型分類精度相同時(shí),算法需要的標(biāo)注代價(jià)更少。
  (3)提出一種多標(biāo)注者主動(dòng)學(xué)習(xí)概率模型
  針對主動(dòng)學(xué)習(xí)算法中單一標(biāo)注者必須能夠提供準(zhǔn)確無誤的樣例標(biāo)記這一理想化假設(shè)條件,提出一種標(biāo)注噪聲條件下多標(biāo)注者主動(dòng)學(xué)習(xí)概率模型,旨在減少標(biāo)注者標(biāo)記質(zhì)量對主動(dòng)學(xué)習(xí)算法的影響。模型通過選擇準(zhǔn)確度高的標(biāo)注者提供標(biāo)記和估計(jì)樣例對應(yīng)正確標(biāo)

8、記的方式達(dá)到同時(shí)減少標(biāo)記代價(jià)和提高模型精度的目的。實(shí)驗(yàn)結(jié)果表明,與其它同類方法相比,所提出概率模型有效減少了標(biāo)注噪聲的影響,提高分類模型的性能。
  (4)提出一種基于Hash技術(shù)的主動(dòng)學(xué)習(xí)樣例選擇算法
  針對未標(biāo)注數(shù)據(jù)數(shù)量較大條件下主動(dòng)學(xué)習(xí)算法選擇樣例時(shí)間開銷大的實(shí)際問題,提出一種基于Hash技術(shù)的樣例選擇算法,旨在快速返回所選樣例,減少主動(dòng)學(xué)習(xí)分類模型所需時(shí)間。算法通過利用Hash技術(shù)選擇分類模型權(quán)重,進(jìn)而,獲得無標(biāo)注

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論