2023年全國(guó)碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩107頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著信息技術(shù)的飛速發(fā)展,媒體數(shù)據(jù)的形式已經(jīng)從單一文本數(shù)據(jù)逐漸轉(zhuǎn)變?yōu)楸磉_(dá)形式更生動(dòng),內(nèi)容更豐富的圖片,視頻,音頻等多模態(tài)數(shù)據(jù),而各種數(shù)字化信息采集設(shè)備及互聯(lián)網(wǎng)的普及,使得多模態(tài)數(shù)據(jù)正呈現(xiàn)出海量增長(zhǎng)的趨勢(shì),如何有效的存儲(chǔ),傳輸,使用及管理這些多模態(tài)媒體數(shù)據(jù),是擺在我們面前的一個(gè)巨大的挑戰(zhàn)和亟待解決的問題。近20年來,人們投入了大量的時(shí)間和資金對(duì)多媒體數(shù)據(jù)進(jìn)行分析和理解,力求提高對(duì)數(shù)字化信息的利用率。例如,谷歌早期的文本檢索系統(tǒng),用戶可以通過

2、關(guān)鍵詞尋找自己需要的文本信息。網(wǎng)絡(luò)問答平臺(tái)知乎( http://www.zhihu.com/ ),關(guān)注于對(duì)用戶所提問題的分析與理解,使用盡量短的時(shí)間提供給用戶盡量精確的答案。百度則開發(fā)出支持?jǐn)?shù)字圖片搜索的檢索引擎。但這些解決方案的提出往往僅是針對(duì)單一模態(tài)的媒體數(shù)據(jù)進(jìn)行處理,在多模態(tài)數(shù)據(jù)海量增加的今天,傳統(tǒng)的數(shù)據(jù)處理,分析,檢索的結(jié)果已經(jīng)無法滿足人們對(duì)媒體信息綜合性的需求,從而催生了新一代面向多模態(tài)媒體數(shù)據(jù)分析技術(shù)。本文正是基于此方向,在

3、多模態(tài)媒體數(shù)據(jù)分析體系中選擇了三個(gè)針對(duì)性地問題展開探索性的研究。
  第一、圖片語義提取是挖掘圖片與文本兩模態(tài)媒體數(shù)據(jù)之間映射關(guān)系的關(guān)鍵技術(shù)。隨著移動(dòng)互聯(lián)的普及,圖片在產(chǎn)生的同時(shí)往往伴隨著相關(guān)地理信息,文本描述信息等伴生模態(tài)數(shù)據(jù)的產(chǎn)生。如何充分利用多模態(tài)數(shù)據(jù)之間的相互關(guān)系,來解決圖片語義的生成是非常重要的研究方向。針對(duì)圖片在地理信息上的一致性,本文提出了一種基于輔助域數(shù)據(jù)的跨域?qū)W習(xí)算法,它能夠有效地解決圖片與文本兩模態(tài)數(shù)據(jù)之間的映

4、射關(guān)系。算法首先根據(jù)圖片的地理信息收集相關(guān)度較高的文本信息,把圖片的語義信息限制在一定的范圍內(nèi);之后利用已知的文本信息從互聯(lián)網(wǎng)中搜索相應(yīng)的圖片數(shù)據(jù)作為輔助域數(shù)據(jù);最后利用跨域?qū)W習(xí)算法得到圖片數(shù)據(jù)與文本數(shù)據(jù)之間的映射關(guān)系,從而實(shí)現(xiàn)圖片的語義提取。相應(yīng)的實(shí)驗(yàn)也證明了方法的有效性和準(zhǔn)確性。
  第二、視頻語義提取是挖掘視頻數(shù)據(jù)向文本模態(tài)數(shù)據(jù)之間映射關(guān)系的關(guān)鍵技術(shù)。由于視頻在結(jié)構(gòu)上是一系列圖片在時(shí)間序列上的組合,因此在視頻語義信息的理解和

5、挖掘中,充分利用每幀圖片中目標(biāo)在時(shí)間序列上的相關(guān)性是非常重要的研究方向,考慮到視頻中目標(biāo)在短時(shí)間上的不變性,本文提出了一種基于圖匹配的數(shù)據(jù)融合算法來解決圖片內(nèi)容與視頻事件之間的映射關(guān)系。算法首先利用塊檢測(cè)模型在視頻每幀中標(biāo)記出目標(biāo)的具體位置以及所在區(qū)域,檢測(cè)的過程中,算法引入在線學(xué)習(xí)的思想,為每一個(gè)跟蹤目標(biāo)訓(xùn)練獨(dú)一無二的檢測(cè)模型,且隨著目標(biāo)的運(yùn)動(dòng)對(duì)檢測(cè)模型進(jìn)行更新和矯正以保證檢測(cè)模型總是最適應(yīng)跟蹤目標(biāo)當(dāng)前的狀態(tài);之后,充分利用檢測(cè)目標(biāo)在

6、空間和時(shí)間上的相關(guān)性構(gòu)建圖模型,使用圖匹配算法解決目標(biāo)數(shù)據(jù)融合問題,得到每一個(gè)目標(biāo)在視頻序列中的整體狀態(tài)及底層特征變化情況。最后,根據(jù)目標(biāo)的變化情況來提取視頻的語義信息。
  第三、多模態(tài)數(shù)據(jù)的語義提取是在擁有多種模態(tài)媒體數(shù)據(jù)條件下實(shí)現(xiàn)信息綜合應(yīng)用的關(guān)鍵技術(shù)。在面對(duì)海量多模態(tài)媒體數(shù)據(jù)時(shí),根據(jù)用戶的具體需求,多模態(tài)媒體數(shù)據(jù)會(huì)形成一定的交集,構(gòu)建針對(duì)某些特定目標(biāo)(地點(diǎn),人,物等)的語義提取算法將為用戶有效地獲取相關(guān)信息提供有力的支撐。

7、考慮到多模態(tài)數(shù)據(jù)在語義上的相關(guān)性,本文提出了一種基于地點(diǎn)的多模態(tài)數(shù)據(jù)語義提取模型。首先從地點(diǎn)社交網(wǎng)絡(luò)平臺(tái) Foursquare 中收集大量與地點(diǎn)相關(guān)的多模態(tài)數(shù)據(jù)(圖片,文本,視頻,地理坐標(biāo)等)。然后利用多模態(tài)數(shù)據(jù)之間相互關(guān)系來構(gòu)建多模態(tài)數(shù)據(jù)的圖模型結(jié)構(gòu),最后利用圖分割/分類算法來提取多模態(tài)數(shù)據(jù)語義信息。實(shí)驗(yàn)結(jié)果表明本方法可以有效的解決多模態(tài)數(shù)據(jù)的語義提取問題。
  全文在分析數(shù)據(jù)特性的基礎(chǔ)上,提出了一系列的創(chuàng)新性算法來解決多模態(tài)媒

8、體數(shù)據(jù)在實(shí)際應(yīng)用中面臨的諸多問題。論文主要的創(chuàng)新點(diǎn)可以包括以下幾個(gè)方面:
  1.針對(duì)圖片語義提取問題,首次把跨域?qū)W習(xí)算法應(yīng)用到了圖片語義提取中,實(shí)現(xiàn)了互聯(lián)網(wǎng)圖片的自動(dòng)標(biāo)注;
  2.針對(duì)目標(biāo)檢測(cè)的遮擋問題,在已有目標(biāo)檢測(cè)算法的基礎(chǔ)上,提出了一種改進(jìn)的塊檢測(cè)算法,算法利用物體的局部特征有效的解決了遮擋目標(biāo)的檢測(cè);
  3.針對(duì)視頻序列中的目標(biāo)數(shù)據(jù)融合問題,成功的將數(shù)據(jù)融合過程轉(zhuǎn)換為了經(jīng)典的圖匹配問題,并成功的將目標(biāo)函數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論