版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、信息安全技術,第12章 內(nèi)容安全技術,2,主要內(nèi)容,內(nèi)容安全的概念文本過濾話題發(fā)現(xiàn)和跟蹤內(nèi)容安全分級監(jiān)管多媒體內(nèi)容安全技術簡介,3,1.“信息”和“內(nèi)容”的聯(lián)系與區(qū)別 在信息科技中,“信息(Information)”和“內(nèi)容(Content)”的概念是等價的,它們均指與具體表達形式、編碼無關的知識、事物、數(shù)據(jù)等含義,相同的信息或內(nèi)容分別可以有多種表達形式或編碼。 信息和內(nèi)容的概念也在一些特別的場
2、合略有區(qū)別。一般認為,內(nèi)容更具“輪廓性”和“主觀性”,即在細節(jié)上有些不同的信息可以被認為是相同的內(nèi)容,不同的人對相同信息的感知也可能不同,而信息具有自信息、熵、互信息等概念,可以用比特(Bit)、奈特 (Nat)或哈特 (Hart)等單位衡量它們數(shù)量的多少,因此一般認為信息更具"細節(jié)性"和"客觀性"。在細節(jié)并不重要的場合下,內(nèi)容往往更能反映信息的含義,也可以認為內(nèi)容是人們可感知的信息或較高層次的信
3、息,多個信息可以對應一個內(nèi)容,但信息論研究的信息是客觀的,即它一般不認為一個信息可以在主觀感知下對應多個含義。,12.1 內(nèi)容安全的概念,4,2. 內(nèi)容安全的概念 內(nèi)容安全就是指內(nèi)容的復制、傳播和流動得到人們預期的控制。 3.對內(nèi)容安全的危害和需求1)數(shù)字版權侵權及其控制 2)不良內(nèi)容傳播及其控制3)敏感內(nèi)容泄露及其控制,12.1 內(nèi)容安全的概念,5,1)數(shù)字版權侵權及其控制
4、 數(shù)字內(nèi)容產(chǎn)業(yè)主要指影視和音樂的數(shù)字化制作和發(fā)行行業(yè),包括VCD、DVD、網(wǎng)絡視頻和MP3音樂的制作、發(fā)行企業(yè)等,涉及現(xiàn)代社會中的幾乎每一個人,但是,數(shù)字視頻和音頻的盜版和非授權散布沉重打擊了數(shù)字內(nèi)容產(chǎn)業(yè),也遲滯了網(wǎng)絡技術在這一行業(yè)中的應用。人們逐漸發(fā)現(xiàn),對數(shù)字版權的侵權僅依靠法律手段是不夠的,內(nèi)容產(chǎn)業(yè)企業(yè)、內(nèi)容制作者及管理部門迫切需要有實施版權侵權的技術手段。,對內(nèi)容安全的危害和需求,6,2)不良內(nèi)容傳播及其控制
5、 不良內(nèi)容的肆意傳播是另外一個與內(nèi)容相關的安全問題。在互聯(lián)網(wǎng)上,任何擁有合法網(wǎng)絡地址的團體或個人都可以發(fā)布內(nèi)容,任何知道電子郵件接收地址的人均可以向該地址發(fā)送電子郵件,在各種動機的驅動下,造成了不良內(nèi)容得到大量傳播、垃圾郵件泛濫的情況。顯然,政府、學校和郵件服務管理者希望阻止這些內(nèi)容的傳播或監(jiān)控其發(fā)展。,對內(nèi)容安全的危害和需求,7,3)敏感內(nèi)容泄露及其控制 大多數(shù)工作環(huán)境在安全通信管理方面是松散的。例如,由于
6、工作需要,政府、企業(yè)和科研單位允許工作人員對外收發(fā)電子郵件、上網(wǎng)并傳輸文件。這不免存在敏感信息泄露的問題,其中,敏感信息主要包括保密文件和與知識產(chǎn)權相關的資料等。為了制約這類現(xiàn)象,信息安全的管理者希望根據(jù)工作人員對外傳輸或接收的內(nèi)容對網(wǎng)絡通信進行控制。,對內(nèi)容安全的危害和需求,8,1.被動內(nèi)容安全技術與主動內(nèi)容安全技術 被動內(nèi)容安全技術不事先預處理被監(jiān)管的內(nèi)容,它通過分析獲得的內(nèi)容本身判斷內(nèi)容的性質,并實施相應的
7、控制。 主動內(nèi)容安全技術對被監(jiān)管的內(nèi)容進行預處理,它通過分析所獲得內(nèi)容中添加的預處理信息來判斷內(nèi)容的性質,并實施相應的控制。預處理主要包括對內(nèi)容添加分級標志、數(shù)字簽名、數(shù)字水印等可識別信息,它們方便了對內(nèi)容性質的判定。,內(nèi)容安全技術的分類,9,2.廣義的內(nèi)容安全技術和狹義的內(nèi)容安全技術 廣義的內(nèi)容安全技術包括數(shù)字版權保護、數(shù)字水印、多媒體加密、多媒體取證(如第8章介紹的數(shù)字指紋與追蹤碼)
8、、內(nèi)容認證(如第5章介紹的脆弱水印和被動認證)、內(nèi)容過濾和監(jiān)控、垃圾郵件防范、網(wǎng)絡敏感內(nèi)容搜索、輿情控制、信息泄露防范等。 狹義內(nèi)容安全技術包括廣義內(nèi)容安全技術中涉及內(nèi)容搜索和監(jiān)控的部分,主要包括網(wǎng)絡多媒體制品的非授權散布控制、內(nèi)容過濾和監(jiān)控、垃圾郵件防范、網(wǎng)絡敏感內(nèi)容搜索、輿情控制、信息泄露防范等。 本章主要介紹狹義內(nèi)容安全技術。核心包括(1)文本過濾;(2)話題發(fā)現(xiàn)和跟蹤。,內(nèi)容安全
9、技術的分類,10,1.文本過濾方法 最簡單的文本過濾方法采用關鍵詞查找,通過文字串匹配算法確定文本是否包含某些特定的詞,進而確認文本類別。當前,研究人員提出了很多串匹配算法,提高了匹配效率,但是,由于各個關鍵詞的重要程度不同,或者它們之間的關聯(lián)方式不同,發(fā)現(xiàn)它們的存在往往不能判斷文本的特性。典型地,當系統(tǒng)發(fā)現(xiàn)一個文本包含一些不良詞時,往往不能準確判斷文章是從正面或從反面的角度使用這些字詞,為了實施正確分類,
10、系統(tǒng)可能需要知道不良詞出現(xiàn)的頻率、它們之間及它們與其他詞之間的關聯(lián)。,12.2 文本過濾,11,2.文本過濾步驟,12.2 文本過濾,,12,1.分詞 分詞是將文本語言分解為詞。在英語、法語等西方語言中,空格是單詞之間的分隔符號,因此計算機比較容易對西文文本分詞。而中文由相互之間沒有分隔符的字組成,但詞仍然是表達含義的單位,一個中文詞包括的字數(shù)不等,因此,中文分詞的目的,是要將文本文字分割成具有獨立含義的詞。必須特別指出,分
11、詞不但用于分解示例文本,也用于在實際過濾中分解待過濾的文本。 目前,中文自動分詞的基本方法是詞典分詞法,它將詞典中給出的詞作為文本詞匯分割的依據(jù)。詞典是系統(tǒng)預先構造的,但也可以通過機器學習的方法擴充,其中包含了通常意義下認為有含義的所有詞條。分詞算法將文本中的字串依次與詞典中的詞比對,如果發(fā)現(xiàn)當前的字串與詞條相符就把字串分割出來。詞典的大小關系到分詞算法的效果和效率。如果詞典包括的詞條比較多,分詞效果就會比較好,但同時也會耗費
12、更多的時間,因此設計人員需要在這兩者之間找到一個平衡點。詞典的數(shù)據(jù)結構也直接關系到分詞算法的效率。最典型的分詞詞典有以下兩類組織方法:1)整詞二分法 ;2) Trie索引樹法。,文本過濾步驟,,13,2.特征提取 特征提取首先是指從示例文本中計算出能夠表征文本特性的量。在向量空間模型中,對于詞條Ti ,權重Wi是其特征量,(W1,…,WN)是整個文本的特征向量,它一般由前N個最大權值組成,這N個權值對應的詞
13、匯一般被稱為特征詞,可以認為它們對定義文本屬性的貢獻最大。當然,這N個特征詞或其一部分及它的權值也可以由用戶指定。 對于被過濾的文本,也存在將其表示為特征向量的問題。在過濾系統(tǒng)對等待過濾文本進行分詞并計算詞條的權值后,根據(jù)特征數(shù)據(jù)庫中的特征向量,可以得到由等待過濾文本在相應特征詞上的權值所組成的特征向量(W1’,…,WN’)。,文本過濾步驟,,14,3.內(nèi)容分類 內(nèi)容分類是
14、指過濾系統(tǒng)檢查流經(jīng)的文本、根據(jù)特征數(shù)據(jù)庫判斷文本屬于哪一類文本的操作。在向量空間模型中,一般通過計算以上(W1,…,WN)與(W1’,…,WN’)的相關系數(shù)判斷:當相關系數(shù)大于一個閾值時,可判斷流經(jīng)的文本屬于(W1,…,WN)對應的那一類文本。,文本過濾步驟,,15,1.話題發(fā)現(xiàn)和跟蹤概述 1996年,美國國防高級研究計劃委員會 (DARPA) 提出,需要一種能自動確定新聞信息流中話題結構的技術。在隨后相關的研
15、究中,這類技術被稱為話題識別與跟蹤(TDT,Topic Detection and Tracking)技術,它主要以網(wǎng)絡新聞、廣播和電視信息流為處理對象,將內(nèi)容按照話題區(qū)分,監(jiān)控對新話題的報道,并且將涉及某個話題的報道組織起來,以某種需要的方式呈現(xiàn)給用戶。總之,TDT的主要研究目標是實現(xiàn)按話題查找、組織和利用來自多種新聞媒體的語言信息。隨著Internet的普及,TDT技術的應用意義越來越大。,12.3 話題發(fā)現(xiàn)和跟蹤,16,2.基本
16、概念 話題 (Topic)是話題識別與跟蹤領域中的一個基本概念,它的含義與通常字面上的含義不同。在最初的研究階段,話題與事件含義相同,一個話題指由某些原因、條件引起,發(fā)生在特定時間、地點,并可能伴隨某些必然結果的一個事件。目前使用的話題概念的范圍要相對寬一些,它包括一個核心事件或活動及所有與之直接相關的事件和活動。如果一篇報道討論了與某個話題的核心事件直接相關的事件或活動,那么就認為該報道與此話題相關。例如,搜
17、尋飛機失事的幸存者、安葬死難者都被看做與某次飛機失事事件直接相關。因此,話題涉及某一類事件的報道。,12.3 話題發(fā)現(xiàn)和跟蹤,17,2. TDT技術 (1)報道切分 報道切分是指:將從一個信息源獲得的語言信息流分割為不同的新聞報道。一個新聞欄目通常包括很多條新聞報道,但是,這些新聞條目之間一般有一定的分割標識,或者在內(nèi)容編排上有一些變化,這些都是分割的依據(jù),而語言含義本身也是分割的基礎。對于語音信號,新聞報道切分一
18、般需要采用語音識別技術獲得文字信息,因此,以下4項后繼技術的輸入一般僅僅是文本。,12.3 話題發(fā)現(xiàn)和跟蹤,18,2. TDT技術 (2)新事件識別 新事件識別的目標是識別出以前沒有報道過的新聞話題。當前,新事件識別技術采用了類似于文本過濾的方法,它一般也用特征提取算法得到事件報道的特征向量,這些特征向量組成了事件特征庫。對于一個新的報道,識別系統(tǒng)計算它的特征向量并比較特征庫中的向量,確定報道的事件是否已經(jīng)存在。在
19、不存在的情況下,系統(tǒng)將這篇報道描述的事件作為一個新事件,并對事件特征庫進行擴充。,12.3 話題發(fā)現(xiàn)和跟蹤,19,2. TDT技術 (3)報道關系識別 報道關系識別是對兩篇報道做出分析,判斷它們描述的新事件是否在討論同一個話題。報道關系識別技術也與前面介紹的文本過濾技術有類似之處,當前普遍采用特征向量比較的方法,相互比較的特征向量來自被分析的兩篇報道,當特征向量相似時,系統(tǒng)認為兩篇報道在討論同一話題。通過這種方法可以將報道
20、同一個話題的事件聚集在一起。,12.3 話題發(fā)現(xiàn)和跟蹤,20,2. TDT技術 (4)話題識別 話題識別的目的是將新聞報道歸入不同的話題類 (或稱為話題族)。實際上,以上3種技術都是為最終的話題識別做準備的,是話題識別的前期步驟,最后通過報道關系識別,識別系統(tǒng)已經(jīng)將報道同一個話題的大量新的事件聚集在一起,接下來的工作是進一步將它們整理歸類并描述它們。從模式識別的角度看,話題識別可以看做對事件的聚類,因此研究人員運用
21、了大量的聚類技術,它們包括增量 K-Means聚類、Agglomerative聚類、單遍歷聚類、層次聚類算法、DBSCAN密度聚類等技術。,12.3 話題發(fā)現(xiàn)和跟蹤,21,2. TDT技術 (5)話題跟蹤 話題識別可以被看做是聚類過程,與此不同,話題跟蹤可以被看做是分類過程,它是指識別出某個新聞報道是否屬于某個已知話題的技術。通常,跟蹤系統(tǒng)已經(jīng)通過前期的話題識別獲得了各個話題的基本特性,通過比較新聞報道的特征,判斷
22、出新聞報道所歸屬的話題。通過對不同網(wǎng)絡地址范圍實施搜索,話題跟蹤系統(tǒng)可以判斷輿情的傳播情況。,12.3 話題發(fā)現(xiàn)和跟蹤,22,1.概述 內(nèi)容安全分級監(jiān)管是一種主動內(nèi)容安全技術,它指在內(nèi)容發(fā)布前,在內(nèi)容中嵌入分級標識,隨后的各種監(jiān)管措施基于分級標識進行。 為了管理互聯(lián)網(wǎng)上日益泛濫的不良信息,保護兒童的身心健康,W3C組織(www.w3c.com)推動了“Internet內(nèi)容選擇平臺(PI
23、CS,Platform forInternet Content Selection)”規(guī)范的制定,提出了基于分級標簽的內(nèi)容分級管理技術,得到了一些網(wǎng)絡內(nèi)容服務、客戶端和瀏覽器程序開發(fā)商的支持。2.實例(教材P188例12.2),12.4 內(nèi)容安全分級監(jiān)管,23,1.概述 近年來,以圖像、視頻和音頻為代表的多媒體內(nèi)容,正在互聯(lián)網(wǎng)上以驚人的速度增長,出現(xiàn)了以視頻新聞、播客、視頻下載、網(wǎng)絡電視、視頻廣告、流媒體、p2p、歌曲
24、下載等為傳播方式的網(wǎng)絡多媒體內(nèi)容產(chǎn)業(yè),用戶與日俱增。目前,基于互聯(lián)網(wǎng)的圖像與視頻、音頻節(jié)目內(nèi)容已經(jīng)成為網(wǎng)絡文化的重要組成部分,對人們文化消費和意識形態(tài)的影響越來越大。與此同時,由于缺乏技術監(jiān)管手段,淫穢色情、暴力血腥、惡搞、變態(tài)、反動有害、盜版的多媒體內(nèi)容正在通過互聯(lián)網(wǎng)快速傳播,造成了十分惡劣的影響,使多媒體內(nèi)容安全受到更廣泛的重視。 多媒體內(nèi)容安全技術在目的和實施框架上與面向文本的內(nèi)容安全技術類似,它主要通過監(jiān)管多媒體
25、內(nèi)容的散布情況來制約不良或盜版內(nèi)容的傳播。但是,由于多媒體內(nèi)容以信號編碼的形式存在,也是數(shù)字電影和音樂的發(fā)售形式,因此,多媒體內(nèi)容安全技術包括了大量的多媒體編解碼、信號處理和模式識別等技術,也更多地與版權保護聯(lián)系在了一起。本節(jié)僅簡單介紹多媒體內(nèi)容安全技術。,12.5 多媒體內(nèi)容安全技術簡介,24,2.多媒體內(nèi)容安全技術(1)被動多媒體內(nèi)容安全技術 被動多媒體內(nèi)容安全技術通過監(jiān)控或搜索網(wǎng)絡多媒體內(nèi)容,確定不良或盜版內(nèi)容的
26、傳播途徑或散布位置,執(zhí)行相應的應對措施。當前,被動多媒體內(nèi)容安全技術主要包括網(wǎng)絡多媒體內(nèi)容發(fā)現(xiàn)及網(wǎng)絡多媒體內(nèi)容分析兩大類技術,前者預先知道網(wǎng)絡多媒體的內(nèi)容,需要發(fā)現(xiàn)其散布情況,后者不知道網(wǎng)絡多媒體的內(nèi)容,但要通過分析判定內(nèi)容的性質。,12.5 多媒體內(nèi)容安全技術簡介,25,多媒體內(nèi)容監(jiān)管方法①網(wǎng)頁分析與網(wǎng)頁信息抽取 由于缺少專門面向網(wǎng)絡多媒體內(nèi)容的發(fā)現(xiàn)與分析手段,當前一些監(jiān)管系統(tǒng)主要采用網(wǎng)頁分析與網(wǎng)頁信息抽取的方法判斷
27、多媒體的散布,但這樣做的可靠性不高,違法者容易避開監(jiān)管。②內(nèi)容雜湊 內(nèi)容雜湊(Content Hash)是一種新出現(xiàn)的多媒體內(nèi)容發(fā)現(xiàn)技術,它在不同的文獻中也被稱為感知雜湊 (Perceptual Hash)或指紋化 (Fingerprinting),這類技術首先提取待發(fā)現(xiàn)內(nèi)容的基本特征數(shù)據(jù),前者一般尺寸較大,而得到的特征數(shù)據(jù)具有小尺寸和低碰撞性的特點,在這方面類似于密碼技術中的雜湊值,因此,網(wǎng)絡搜索系統(tǒng)可以僅基于內(nèi)容雜
28、湊去識別搜索到的多媒體,避免了采用大數(shù)據(jù)作為匹配依據(jù)的情況。內(nèi)容雜湊是數(shù)字多媒體的穩(wěn)定特征,在不顯著改變內(nèi)容的情況下,違法者難以更改其信息,因此難以避開監(jiān)管。當前,相關研究普遍試圖發(fā)現(xiàn)與內(nèi)容更相關并且性質更加穩(wěn)定的統(tǒng)計特征,基于這些特征計算內(nèi)容雜揍并形成高效的查詢和過濾。③其他方法 當前,研究人員已經(jīng)在多媒體分析方面采用了各種特征提取、統(tǒng)計學習和模式分類等手段進行視頻、音頻或圖像內(nèi)容的識別,已經(jīng)在人臉識別、色情內(nèi)容識別
29、等方面獲得了一些有效的手段。,12.5 多媒體內(nèi)容安全技術簡介,26,2.主動多媒體內(nèi)容安全技術 主動多媒體內(nèi)容安全技術主要包括基于分級標簽及基于數(shù)字水印嵌入的兩類。以上提到的基于分級的內(nèi)容安全技術是一類典型的主動內(nèi)容安全技術,它的基本原理也可以用于多媒體內(nèi)容安全技術。但是,通過前面的描述也不難看出,分級標簽的嵌入受到文件格式的制約,另外,違法者可以架設自己的網(wǎng)站發(fā)布非授權的內(nèi)容,這些網(wǎng)站絕對不會支持使用分級標簽。而第5章介紹的
30、魯棒水印技術彌補了以上不足,魯棒水印與合法發(fā)布的多媒體內(nèi)容緊密地結合,違法者難以在不顯著破壞多媒體感知質量的情況下消除水印,因此水印成了"黏合力強"的標簽。雖然魯棒水印可以作為分級標簽,但當前更多地用它表示版權所有者的信息或內(nèi)容購買者的信息,在后一種情況下,水印通常被稱為數(shù)字指紋(Digital Fingerprint)。在版權保護的應用中,版權管理部門或司法機構可以通過驗證水印維護版權所有者的利益,也可以通過驗證數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- ch12蝸桿傳動
- 國際財務管理ch12
- 圖論及其應用ch12
- 軟件測試方法和技術 - ch12 組建測試隊伍
- ch12金融抑制、深化與創(chuàng)新、金融脆弱性與危機
- 商業(yè)銀行業(yè)務經(jīng)營與管理-清華大學ch12
- 靶向EGFRvⅢ單克隆抗體CH12對上皮性卵巢癌的體外研究.pdf
- ch.12財務分析
- ch4~ch6 電子商務技術基礎-安全與支付
- ch.12 財務分析
- [建筑]安全技術交底內(nèi)容
- 安全技術交底內(nèi)容大全
- 安全交底安全技術交底的內(nèi)容
- 安全交底安全技術交底的內(nèi)容
- 安全技術交底內(nèi)容大全
- 安全技術交底主要內(nèi)容
- 安全生產(chǎn)技術內(nèi)容整理
- 安全生產(chǎn)技術內(nèi)容整理
- 12、其他內(nèi)容
- 施工安全技術交底主要內(nèi)容
評論
0/150
提交評論