版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘是指從數(shù)據(jù)中尋找正確的、有趣的、潛在有用的并最終可以理解的模式。隨著信息技術(shù)在各個領(lǐng)域的普及,在各種應(yīng)用中每天都有海量的數(shù)據(jù)被產(chǎn)生和收集,特別是在WEB 應(yīng)用、自然科學、電子商務(wù)等生產(chǎn)生活相關(guān)的應(yīng)用領(lǐng)域中產(chǎn)生了大量復(fù)雜的數(shù)據(jù)集,如何幫助用戶快速有效地從這些數(shù)據(jù)集中獲取知識是一個迫切需要解決的問題。因此,根據(jù)實際應(yīng)用的需要和不同領(lǐng)域數(shù)據(jù)的特點,構(gòu)造有效的海量和高維數(shù)據(jù)挖掘算法有著非常重要的理論和實際意義。 在基于WEB日志
2、的查詢詞翻譯方面,在分析用戶和搜索引擎進行交互生成的WEB日志的特點的基礎(chǔ)上,利用WEB日志作為查詢詞翻譯的語料庫。基于WEB日志的查詢詞翻譯挖掘的框架MTQC 充分利用雙語言URL的對應(yīng)關(guān)系以及URL和查詢詞的關(guān)聯(lián)關(guān)系,分兩步完成挖掘:首先識別雙語言的URL 對,然后匹配查詢詞翻譯對。挖掘算法MTQC-1和MTQC-2 建立在這個框架之上,算法具有一些優(yōu)良的性質(zhì):能夠找到一些字典中沒有出現(xiàn)的詞的翻譯;能夠提取與目標語言的翻譯語義相關(guān)的
3、查詢詞,有助于跨語言信息檢索;不需要下載網(wǎng)頁;直接從WEB日志中找出查詢詞的翻譯,不需要分詞和識別短語邊界,減少了識別錯誤導(dǎo)致翻譯錯誤的風險,簡化了翻譯的過程;能夠及時地反映最新、最流行的查詢詞,避免多義詞的選擇。 在大規(guī)模、真實的WEB日志上進行實驗,結(jié)果表明與流行的查詢詞翻譯方法相比,MTQC-1和MTQC-2在翻譯字典中不存在的查詢詞和常見的查詢詞方面具有優(yōu)越性。 在基于樣式相似性的最大子空間聚類方面,傳統(tǒng)子空間聚
4、類算法不能挖掘基于樣式相似性的聚類,且已有的基于樣式相似性的聚類算法多存在不足之處。基于樣式相似性的最大子空間聚類算法EMaPle 是一種新的挖掘同時滿足一致性約束、大小約束和符號約束的算法。它結(jié)合基因表達數(shù)據(jù)的特點,選擇僅在規(guī)模較小的屬性空間上計算MDSc,采用全局修剪規(guī)則修剪生成的MDSc,在對修剪后的MDSc 產(chǎn)生的前綴樹上進行深度優(yōu)先遍歷的同時,運用局部的修剪規(guī)則對屬性和子樹進行修剪。 在真實和人造數(shù)據(jù)集上進行實驗,結(jié)果
5、表明EMaPle的性能大大優(yōu)于經(jīng)典算法MaPle。 在子空間Skyline聚類方面,強調(diào)在高維空間的任意子空間上更好地組織Skyline查詢的結(jié)果,增加結(jié)果集的可控性,提高用戶的決策效率。在分析高維數(shù)據(jù)空間的子空間Skyline 查詢存在的困難的基礎(chǔ)上,設(shè)計一種新穎而緊湊的結(jié)構(gòu)—子空間Skyline 簇,通過在Skyline 查詢中引入聚類算法,巧妙地結(jié)合子空間Skyline 查詢的優(yōu)點和聚類技術(shù)各自的優(yōu)點。在一般的Skylin
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于Web日志挖掘的聚類算法研究.pdf
- 基于聚類算法的Web日志挖掘應(yīng)用研究.pdf
- 基于聚類的web日志挖掘
- 一種基于Web日志挖掘聚類算法的研究.pdf
- 基于Web日志挖掘的用戶聚類研究.pdf
- 模糊聚類算法研究及在Web日志挖掘中的應(yīng)用.pdf
- 基于MapReduce用戶聚類算法在Web日志挖掘中應(yīng)用.pdf
- 基于聚類算法的WEB日志挖掘系統(tǒng)研究與應(yīng)用.pdf
- 基于web日志挖掘的用戶會話聚類算法的研究與應(yīng)用.pdf
- 基于K-均值聚類算法的Web日志挖掘技術(shù)的研究和應(yīng)用.pdf
- 約束子空間聚類算法研究.pdf
- 多標記傳播聚類算法及其在Web日志挖掘中的應(yīng)用.pdf
- Web挖掘中聚類算法的研究.pdf
- 基于VSW擴展算法和經(jīng)典聚類算法的Web挖掘研究.pdf
- 基于SOM神經(jīng)網(wǎng)絡(luò)和模糊聚類的Web日志增量挖掘研究.pdf
- 基于仿生類算法的Web日志挖掘技術(shù)研究.pdf
- 基于粗糙集和模糊聚類的Web日志增量式挖掘研究.pdf
- 基于Web文本挖掘的聚類算法研究.pdf
- 子空間高維聚類算法的研究.pdf
- 圖像子空間聚類與分類算法研究.pdf
評論
0/150
提交評論