版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、半監(jiān)督學(xué)習(xí)方法能夠利用有限的有標(biāo)簽數(shù)據(jù),并結(jié)合大量的無標(biāo)簽數(shù)據(jù)挖掘出有用的信息,在諸多領(lǐng)域得到了廣泛的應(yīng)用。然而傳統(tǒng)的半監(jiān)督分類方法大多建立在數(shù)據(jù)集中各個類別樣本數(shù)相等的假設(shè)基礎(chǔ)上,一旦數(shù)據(jù)集中各個類別樣本數(shù)不等,分類邊界將偏向于擁有樣本數(shù)少的類別,(此類別稱之為弱勢類,而擁有樣本數(shù)多的類別稱之為強(qiáng)勢類),導(dǎo)致強(qiáng)勢類分類空間增大,弱勢類樣本難以被識別出來,分類性能受到嚴(yán)重影響。實(shí)際應(yīng)用中,人們往往更關(guān)注弱勢類樣本的識別率,如森林火災(zāi)監(jiān)測
2、發(fā)生火災(zāi)的溫度序列相比正常情況要少得多,然而識別火災(zāi)溫度序列是人們更為關(guān)心的;社交網(wǎng)絡(luò)隱私保護(hù)應(yīng)用中,惡意用戶的識別要比可信任用戶更重要,然而惡意用戶的數(shù)量遠(yuǎn)遠(yuǎn)小于可信任用戶的數(shù)量。因此,解決此類問題具有很強(qiáng)的理論意義和實(shí)用價值。
本文將各個類別樣本數(shù)不相等的數(shù)據(jù)集分類稱為不平衡的數(shù)據(jù)集分類。研究表明,不平衡數(shù)據(jù)集分類方法大多在監(jiān)督學(xué)習(xí)的環(huán)境下,而在半監(jiān)督學(xué)習(xí)領(lǐng)域內(nèi)關(guān)于不平衡數(shù)據(jù)集分類的研究甚少。不平衡數(shù)據(jù)集分類方法可以通過算
3、法層面或數(shù)據(jù)層面去解決。算法層面主要通過改變現(xiàn)有算法的策略以適應(yīng)對不平衡數(shù)據(jù)集的分類;數(shù)據(jù)層面主要通過數(shù)據(jù)集重采樣的方法來改變數(shù)據(jù)集的樣本分布,以構(gòu)造平衡的數(shù)據(jù)集,來適應(yīng)現(xiàn)有算法。因此,本文的研究重點(diǎn)為:根據(jù)現(xiàn)有的半監(jiān)督分類算法,在算法層面提出了LMN算法,在數(shù)據(jù)層面提出了INNO算法,來解決在半監(jiān)督學(xué)習(xí)環(huán)境下的不平衡數(shù)據(jù)集的分類問題,明顯提高了對不平衡數(shù)據(jù)集的分類精度。并利用提出的算法與經(jīng)典的半監(jiān)督分類算法相結(jié)合,有效的解決了森林火災(zāi)
4、監(jiān)測和社交網(wǎng)絡(luò)隱私保護(hù)兩個實(shí)際問題。論文主要研究工作如下:
(1)首先從算法層面出發(fā),由于傳統(tǒng)的基于圖的半監(jiān)督分類方法在對不平衡數(shù)據(jù)集分類時,各個類別在標(biāo)簽傳遞過程中的信息總量不等,導(dǎo)致分類邊界傾斜。針對此問題,本文提出LMN算法,即用標(biāo)簽“平衡因子”來構(gòu)造規(guī)范化的標(biāo)簽矩陣,將每個類的標(biāo)簽總信息量歸一,以保證各個類擁有的初始標(biāo)簽信息總量相等,進(jìn)而消弱了強(qiáng)勢類的標(biāo)簽信息帶來的分類傾向。
(2)然后從數(shù)據(jù)層面考慮,由于傳
5、統(tǒng)的重采樣方法在分類邊界構(gòu)造人工樣本,而半監(jiān)督學(xué)習(xí)環(huán)境中,只擁有稀少的有標(biāo)簽數(shù)據(jù)難以判斷分類邊界。針對此問題,考慮到半監(jiān)督學(xué)習(xí)環(huán)境中包含大量的無標(biāo)簽數(shù)據(jù),本文提出迭代最近鄰過采樣標(biāo)簽平衡方法(INNO算法),在分類開始前,迭代地從無標(biāo)簽數(shù)據(jù)集中選出與所有弱勢類的標(biāo)簽數(shù)據(jù)距離最近的樣本,同時避開可能處于分類邊界的樣本,然后將其添加到有標(biāo)簽數(shù)據(jù)的集合中,以防止引入錯誤分類給后續(xù)分類算法帶來錯誤累積,以保證分類算法輸入的數(shù)據(jù)集是平衡的或者近似
6、平衡的。
(3)另外,在基于邊界采樣的主動學(xué)習(xí)的過程中,每次挑選距離分類邊界最近的樣本,然后交給專家系統(tǒng)進(jìn)行標(biāo)注,然而選擇的樣本可能與已知的樣本區(qū)域距離較近,這樣的樣本可能會給分類器帶來重復(fù)的分類信息。針對此問題,本文通過相似性檢測算法來避免選擇局部集中的樣本,更好地擴(kuò)展了樣本的選擇區(qū)域,一定程度上解決了不平衡數(shù)據(jù)集的分類問題。
(4)傳統(tǒng)森林火災(zāi)監(jiān)測的識別算法受限于能源消耗、處理效率和內(nèi)存大小限制。此外,由于火災(zāi)出
7、現(xiàn)的概率要遠(yuǎn)遠(yuǎn)小于正常情況,因此,數(shù)據(jù)集存在著明顯的不平衡性。本文首先將溫度變化序列概括為四種不同的變化曲線(即為分類目標(biāo)),然后將傳感器檢測的溫度序列,按照時間間隔劃分成相同長度的子序列,然后利用本文提出的INNO方法,對未知的溫度子序列分類,提高了數(shù)據(jù)集不平衡情況下對森林火災(zāi)的識別率。
(5)在線社交網(wǎng)絡(luò)中好友的可信任程度是用戶首要關(guān)注的問題,針對如何避免個人信息被惡意用戶竊取和泄露,考慮到可信任用戶和惡意用戶數(shù)量的不平衡
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 半監(jiān)督學(xué)習(xí)中不平衡數(shù)據(jù)集分類研究.pdf
- 基于多分類器集成及半監(jiān)督學(xué)習(xí)的不平衡數(shù)據(jù)分類研究.pdf
- 半監(jiān)督不平衡數(shù)據(jù)的分類.pdf
- 面向不平衡數(shù)據(jù)的特征選擇與半監(jiān)督分類算法研究.pdf
- 基于半監(jiān)督和集成學(xué)習(xí)的不平衡數(shù)據(jù)特征選擇和分類.pdf
- 基于集成學(xué)習(xí)的不平衡數(shù)據(jù)分類.pdf
- 基于集成學(xué)習(xí)的不平衡數(shù)據(jù)分類的研究及應(yīng)用.pdf
- 不平衡數(shù)據(jù)集分類算法的研究.pdf
- 基于不平衡數(shù)據(jù)集的數(shù)據(jù)挖掘分類算法研究.pdf
- 基于Fisher判別技術(shù)的不平衡數(shù)據(jù)分類算法研究.pdf
- 不平衡數(shù)據(jù)分類和極限學(xué)習(xí)機(jī)算法研究.pdf
- 關(guān)聯(lián)分類改進(jìn)及不平衡數(shù)據(jù)分類算法研究.pdf
- 面向不平衡數(shù)據(jù)集的分類算法研究.pdf
- 關(guān)于不平衡缺失數(shù)據(jù)的分類算法研究.pdf
- 基于不平衡數(shù)據(jù)的分類方法研究.pdf
- 基于半監(jiān)督學(xué)習(xí)的文本分類算法研究.pdf
- 基于半監(jiān)督學(xué)習(xí)的路面病害檢測與分類算法研究.pdf
- 基于支持向量機(jī)的不平衡數(shù)據(jù)集分類算法研究.pdf
- 不平衡數(shù)據(jù)分類問題研究.pdf
- 基于不平衡數(shù)據(jù)的情感分類方法研究.pdf
評論
0/150
提交評論