版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、互聯(lián)網(wǎng)是人類迄今為止發(fā)明的最大的信息知識寶庫,特別是隨著Web2.0時代的到來,互聯(lián)網(wǎng)的信息貢獻者普及到全體上網(wǎng)人群。搜索引擎的出現(xiàn)使得這些海量的信息的價值被真正發(fā)掘出來,讓所有信息都擁有平等的被發(fā)現(xiàn)、獲取和應(yīng)用的機會。互聯(lián)網(wǎng)上的信息種類由最初的文字、圖片越來越向以音頻、視頻為主的多媒體方向拓展,對視頻信息的檢索需求也應(yīng)運而生。繼傳統(tǒng)搜索引擎技術(shù)之后,如何實現(xiàn)高效的、適應(yīng)大規(guī)模且快速增長和更新的視頻內(nèi)容的搜索成為新的研究熱點。本論文即是
2、作者于攻讀博士學(xué)位期間從事中文互聯(lián)網(wǎng)視頻搜索引擎的研究開發(fā)工作的總結(jié),這是國內(nèi)第一個正式公開發(fā)布的視頻搜索引擎。
本論文的研究工作自2006年開始。以國內(nèi)最大搜索引擎的互聯(lián)網(wǎng)數(shù)據(jù)庫為基礎(chǔ),第一次對中文互聯(lián)網(wǎng)的視頻數(shù)據(jù)分布和用戶搜索行為日志進行了大規(guī)模測量和研究,對中文互聯(lián)網(wǎng)用戶的視頻搜索需求進行了充分細(xì)致的分析,在對傳統(tǒng)搜索引擎的工作原理進行了具體分析和對視頻搜索引擎提出具體評估標(biāo)準(zhǔn)之后,得出了傳統(tǒng)搜索引擎不能勝任視頻搜索引擎
3、工作目標(biāo)、有必要構(gòu)建專用的視頻搜索引擎的結(jié)論。在此基礎(chǔ)上,本文提出了視頻搜索引擎的架構(gòu)模型,并指出實現(xiàn)視頻搜索引擎的主要核心技術(shù)問題,包括面向視頻分享網(wǎng)站的定向抓取和信息抽取,面向網(wǎng)頁視頻的挖掘和信息抽取,以及面向視頻搜索的檢索排序,并針對這些核心技術(shù)問題提出相應(yīng)的算法。進一步,基于這些核心算法構(gòu)建了國內(nèi)外第一個基于中文互聯(lián)網(wǎng)的視頻搜索引擎系統(tǒng),面向公眾提供在線視頻搜索服務(wù),該引擎己成為國內(nèi)影響力最大的互聯(lián)網(wǎng)視頻搜索引擎。論文主要工作和
4、創(chuàng)新如下:
1)提出了面向視頻分享網(wǎng)站的定向抓取的方法,主要解決視頻分享網(wǎng)站的視頻數(shù)據(jù)抓取和信息提取問題。在抓取的過程中,提出基于對視頻分享網(wǎng)站的網(wǎng)站結(jié)構(gòu)和網(wǎng)頁結(jié)構(gòu)進行分類的算法,對不同類型的網(wǎng)頁可以采取不同的深度抓取策略,并針對包含視頻內(nèi)容的網(wǎng)頁類型應(yīng)用不同的信息抽取包裝器,提取出識別規(guī)則,保證對視頻分享網(wǎng)站的深度抓取和準(zhǔn)確挖掘。
2)提出了基于傳統(tǒng)搜索引擎的全網(wǎng)網(wǎng)頁庫中的網(wǎng)頁視頻進行挖掘和信息抽取的算法。對全網(wǎng)s
5、pider系統(tǒng)的URL抓取優(yōu)先級算法進行了詳細(xì)分析,提出了用DOM樹方法進行網(wǎng)頁視頻進行信息抽取的方法,保證視頻數(shù)據(jù)抽取的準(zhǔn)確性,提升全面性。定向抓取與全網(wǎng)挖掘相結(jié)合,為視頻搜索提供基本的數(shù)據(jù)源和文本索引信息,并在覆蓋率和準(zhǔn)確性之間取得平衡。
3)基于對用戶視頻搜索需求的分析,提出了適合中文視頻搜索的歸并排序的算法,并提出在線評估實驗的方法,確定了算法參數(shù)取值,檢驗了算法的有效性。這種算法綜合考慮了視頻相關(guān)性、視頻質(zhì)量和網(wǎng)站質(zhì)
6、量,兼顧了用戶進行檢索時的相關(guān)性體驗,以及檢索后觀看視頻的播放體驗。后續(xù)的研究工作進一步表明本文提出的排序算法在線評估方法是一種適應(yīng)大規(guī)模網(wǎng)絡(luò)應(yīng)用的算法性能評估方法。
4)對基于以上核心技術(shù)構(gòu)建的視頻搜索引擎的效果進行了綜合評估,從覆蓋率、時效性、相關(guān)性等方面對視頻搜索引擎進行了技術(shù)評估,并與后期出現(xiàn)的其它同類搜索引擎服務(wù)進行了對比,通過對第三方評測數(shù)據(jù)的分析,驗證了本文的視頻搜索引擎技術(shù)的相對性能,驗證本文設(shè)計的算法及策略的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向主題互聯(lián)網(wǎng)視頻搜索引擎關(guān)鍵技術(shù)研究.pdf
- 基于文本分析的互聯(lián)網(wǎng)視頻搜索引擎技術(shù)研究.pdf
- mba論文面向主題互聯(lián)網(wǎng)視頻搜索引擎關(guān)鍵技術(shù)研究pdf
- 互聯(lián)網(wǎng)上的搜索引擎
- 互聯(lián)網(wǎng)搜索引擎搜索策略和算法的研究.pdf
- 互聯(lián)網(wǎng)搜索引擎企業(yè)品牌建設(shè)研究.pdf
- 基于搜索引擎索引分析的互聯(lián)網(wǎng)輿情監(jiān)控研究.pdf
- 互聯(lián)網(wǎng)搜索引擎的傳播學(xué)解讀.pdf
- 土豆網(wǎng)視頻搜索引擎系統(tǒng)的設(shè)計與實現(xiàn).pdf
- 互聯(lián)網(wǎng)上含隱藏信息的圖像搜索引擎.pdf
- 如何利用互聯(lián)網(wǎng)搜索引擎獲取有效的信息
- 中文專業(yè)搜索引擎優(yōu)化策略研究.pdf
- 中文智能搜索引擎.pdf
- 支持AJAX的互聯(lián)網(wǎng)搜索引擎爬蟲設(shè)計與實現(xiàn).pdf
- 基于語義上下文的互聯(lián)網(wǎng)金融搜索引擎研究.pdf
- 基于互聯(lián)網(wǎng)智商評測算法的搜索引擎智商測試研究.pdf
- 針對互聯(lián)網(wǎng)公共服務(wù)的搜索引擎關(guān)鍵技術(shù)研究.pdf
- GIS可視化互聯(lián)網(wǎng)新聞搜索引擎的研究與實現(xiàn).pdf
- 中文搜索引擎營銷研究.pdf
- 互聯(lián)網(wǎng)信息檢索與智能化搜索引擎信息系統(tǒng)研究.pdf
評論
0/150
提交評論