版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、隨著信息技術的飛速發(fā)展,媒體數(shù)據的形式已經從單一文本數(shù)據逐漸轉變?yōu)楸磉_形式更生動,內容更豐富的圖片,視頻,音頻等多模態(tài)數(shù)據,而各種數(shù)字化信息采集設備及互聯(lián)網的普及,使得多模態(tài)數(shù)據正呈現(xiàn)出海量增長的趨勢,如何有效的存儲,傳輸,使用及管理這些多模態(tài)媒體數(shù)據,是擺在我們面前的一個巨大的挑戰(zhàn)和亟待解決的問題。近20年來,人們投入了大量的時間和資金對多媒體數(shù)據進行分析和理解,力求提高對數(shù)字化信息的利用率。例如,谷歌早期的文本檢索系統(tǒng),用戶可以通過
2、關鍵詞尋找自己需要的文本信息。網絡問答平臺知乎( http://www.zhihu.com/ ),關注于對用戶所提問題的分析與理解,使用盡量短的時間提供給用戶盡量精確的答案。百度則開發(fā)出支持數(shù)字圖片搜索的檢索引擎。但這些解決方案的提出往往僅是針對單一模態(tài)的媒體數(shù)據進行處理,在多模態(tài)數(shù)據海量增加的今天,傳統(tǒng)的數(shù)據處理,分析,檢索的結果已經無法滿足人們對媒體信息綜合性的需求,從而催生了新一代面向多模態(tài)媒體數(shù)據分析技術。本文正是基于此方向,在
3、多模態(tài)媒體數(shù)據分析體系中選擇了三個針對性地問題展開探索性的研究。
第一、圖片語義提取是挖掘圖片與文本兩模態(tài)媒體數(shù)據之間映射關系的關鍵技術。隨著移動互聯(lián)的普及,圖片在產生的同時往往伴隨著相關地理信息,文本描述信息等伴生模態(tài)數(shù)據的產生。如何充分利用多模態(tài)數(shù)據之間的相互關系,來解決圖片語義的生成是非常重要的研究方向。針對圖片在地理信息上的一致性,本文提出了一種基于輔助域數(shù)據的跨域學習算法,它能夠有效地解決圖片與文本兩模態(tài)數(shù)據之間的映
4、射關系。算法首先根據圖片的地理信息收集相關度較高的文本信息,把圖片的語義信息限制在一定的范圍內;之后利用已知的文本信息從互聯(lián)網中搜索相應的圖片數(shù)據作為輔助域數(shù)據;最后利用跨域學習算法得到圖片數(shù)據與文本數(shù)據之間的映射關系,從而實現(xiàn)圖片的語義提取。相應的實驗也證明了方法的有效性和準確性。
第二、視頻語義提取是挖掘視頻數(shù)據向文本模態(tài)數(shù)據之間映射關系的關鍵技術。由于視頻在結構上是一系列圖片在時間序列上的組合,因此在視頻語義信息的理解和
5、挖掘中,充分利用每幀圖片中目標在時間序列上的相關性是非常重要的研究方向,考慮到視頻中目標在短時間上的不變性,本文提出了一種基于圖匹配的數(shù)據融合算法來解決圖片內容與視頻事件之間的映射關系。算法首先利用塊檢測模型在視頻每幀中標記出目標的具體位置以及所在區(qū)域,檢測的過程中,算法引入在線學習的思想,為每一個跟蹤目標訓練獨一無二的檢測模型,且隨著目標的運動對檢測模型進行更新和矯正以保證檢測模型總是最適應跟蹤目標當前的狀態(tài);之后,充分利用檢測目標在
6、空間和時間上的相關性構建圖模型,使用圖匹配算法解決目標數(shù)據融合問題,得到每一個目標在視頻序列中的整體狀態(tài)及底層特征變化情況。最后,根據目標的變化情況來提取視頻的語義信息。
第三、多模態(tài)數(shù)據的語義提取是在擁有多種模態(tài)媒體數(shù)據條件下實現(xiàn)信息綜合應用的關鍵技術。在面對海量多模態(tài)媒體數(shù)據時,根據用戶的具體需求,多模態(tài)媒體數(shù)據會形成一定的交集,構建針對某些特定目標(地點,人,物等)的語義提取算法將為用戶有效地獲取相關信息提供有力的支撐。
7、考慮到多模態(tài)數(shù)據在語義上的相關性,本文提出了一種基于地點的多模態(tài)數(shù)據語義提取模型。首先從地點社交網絡平臺 Foursquare 中收集大量與地點相關的多模態(tài)數(shù)據(圖片,文本,視頻,地理坐標等)。然后利用多模態(tài)數(shù)據之間相互關系來構建多模態(tài)數(shù)據的圖模型結構,最后利用圖分割/分類算法來提取多模態(tài)數(shù)據語義信息。實驗結果表明本方法可以有效的解決多模態(tài)數(shù)據的語義提取問題。
全文在分析數(shù)據特性的基礎上,提出了一系列的創(chuàng)新性算法來解決多模態(tài)媒
8、體數(shù)據在實際應用中面臨的諸多問題。論文主要的創(chuàng)新點可以包括以下幾個方面:
1.針對圖片語義提取問題,首次把跨域學習算法應用到了圖片語義提取中,實現(xiàn)了互聯(lián)網圖片的自動標注;
2.針對目標檢測的遮擋問題,在已有目標檢測算法的基礎上,提出了一種改進的塊檢測算法,算法利用物體的局部特征有效的解決了遮擋目標的檢測;
3.針對視頻序列中的目標數(shù)據融合問題,成功的將數(shù)據融合過程轉換為了經典的圖匹配問題,并成功的將目標函數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 眼科??朴跋駭?shù)據分析關鍵技術研究.pdf
- 基因微陣列數(shù)據分析關鍵技術研究.pdf
- 大數(shù)據分析關鍵技術
- 基于大數(shù)據的高考志愿數(shù)據分析關鍵技術研究.pdf
- 多模態(tài)紙幣圖像分析關鍵技術研究及其應用.pdf
- 工業(yè)CT數(shù)據分析及可視化關鍵技術研究.pdf
- 動車組復雜裝備大數(shù)據分析關鍵技術研究與實現(xiàn).pdf
- 視頻多模態(tài)信息處理的關鍵技術研究.pdf
- 多模態(tài)媒體信息檢索技術研究.pdf
- 基因表達數(shù)據分析和處理關鍵技術.pdf
- 基于深度學習的橋梁健康監(jiān)測數(shù)據分析關鍵技術研究.pdf
- 智能交通系統(tǒng)中的時空數(shù)據分析關鍵技術研究.pdf
- 多模態(tài)醫(yī)學圖像融合系統(tǒng)設計及其關鍵技術研究.pdf
- 多媒體文件數(shù)據雕刻關鍵技術研究.pdf
- 流媒體傳輸協(xié)議分析關鍵技術研究.pdf
- 基于IEC61850智能變電站數(shù)據分析關鍵技術研究.pdf
- 航空數(shù)據關鍵技術研究.pdf
- 數(shù)據集成關鍵技術研究.pdf
- 多傳感器數(shù)據融合關鍵技術研究.pdf
- 無線多跳網絡中多媒體通信關鍵技術研究.pdf
評論
0/150
提交評論