2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、《計算機學報》2009年5期本文得到國家自然科學基金(90604004)、江蘇省自然科學基金(BK2007708)、江蘇省“網絡與信息安全”重點實驗室(編號:BM2003201)和“計算機網絡和信息集成”教育部重點實驗室(編號:93K9)和科技部國際科技合作項目(數字身份技術研究與開發(fā))的資助.基于嵌套EMD的釣魚網頁檢測算法曹玖新毛波羅軍舟劉波(東南大學計算機科學與工程學院江蘇省南京市210096)(江蘇省網絡與信息安全重點實驗室江蘇

2、省南京市210096)(計算機網絡和信息集成教育部重點實驗室江蘇省南京市210096)摘要網絡釣魚(WebPhishing)以相似網站欺詐用戶、騙取個人機密信息,已成為電子金融活動的重大威脅。對此,本文提出了一個釣魚網頁檢測架構。在具體檢測機制方面,提出了一個基于嵌套EMD(NestedEarthMover’sDistance)的網頁相度似判定算法,對web圖像進行分割,抽取子圖特征并構建網頁的ARG(AttributedRelatio

3、nalGraph),在計算不同ARG屬性距離的基礎上,采用嵌套EMD方法計算網頁的相似度,實現了對釣魚網站的檢測,實驗結果表明,與國際現有研究成果相比,本算法具有較高的精度和較強的適應性。關鍵詞釣魚網頁檢測網頁分割特征圖;嵌套EMD;相似度中圖法分類號TP3931引言網絡釣魚是指那些利用與原網頁極其相似的假冒網頁騙取用戶個人信息(如銀行帳號,密碼等)的行為。隨著電子商務等網絡應用的快速發(fā)展,網絡釣魚的危害逐年增加①,這引起了產業(yè)界和學術

4、界廣泛的關注,并提出了一系列的防范措施。現有的反網絡釣魚技術可以分為三大類:基于服務器的防范,基于瀏覽器的防范和獨立的第三方檢測?;诜掌鞯姆婪吨阜掌魍ㄟ^認證來防范網絡釣魚,例如電子證書,動態(tài)安全皮膚[1]等?;跒g覽器的防范措施通過嵌入瀏覽器的插件來提示用戶。獨立的第三方防范措施主要目的是發(fā)現并共享釣魚網站相關信息,包括電子郵件檢測[2],網絡行為檢測[3],個人信息保護[4],網頁異常檢測[5],實時黑名單,以及網頁相似性檢測等

5、[67]。由于釣魚網站能繞過服務器,基于服務器的措施無法有效地防范網絡釣魚?;跒g覽器的措施需要第三方提供的釣魚網站黑名單,因此,釣魚網站的檢測是防范網絡釣魚的基礎。但由于網絡釣魚的復雜性,僅使用單一的檢測防范措施難以達到預期效果,對此本文提出了一套完整的釣魚網頁檢測體系架構,并深入研究了釣魚網頁檢測的核心算法——網頁相似性檢測算法。本文所提出的釣魚網站檢測體系包括垃圾郵件檢測,網絡釣魚分析節(jié)點以及網絡釣魚控制中心三個部分。網頁相似性檢

6、測算法則包括網頁圖像的分割、特征抽取、位置關系向量矩陣形成、子塊關系(ARG)生成以及嵌套EMD距離的計算等步驟,實驗證實該算法可以有效的檢測出兩個網頁的相似性。本文的組織結構如下:第二部分給出了國內外的相關研究現狀,第三部分給出釣魚網頁檢測體系構架,第四部分介紹網頁相似性檢測算法,實驗結果在第五部分給出,最后對我們的工作進行總結。2相關工作目前,釣魚網頁檢測研究集中在網頁異常檢測,網絡行為檢測,以及基于視覺的釣魚網頁檢測等幾個方面。Y

7、ingPan等[5]提出了一種基于網頁異常的檢測,該方法基于網頁的DOM結構,使用SVM(SupptVectMachine)檢測釣魚網頁,但該方①:www.apwg.g.APWGReptJanuary2007法無法處理網頁中的圖片,從而大大降低了算法的準確性。3備功能之一,基于該功能,通過加入相關的釣魚郵件檢測模塊則可以容易的收集到可疑的釣魚郵件,以進行進一步的分析。網絡釣魚分析節(jié)點可以位于郵件服務器或由第三方提供,該節(jié)點通過收集垃圾郵

8、件分析器提供的可疑釣魚郵件,對可疑郵件進行內容提取得到郵件指向的可疑網站,通過實時黑名單,URL檢測和網頁檢測等手段初步判斷該網站是否為釣魚網站,如果發(fā)現釣魚網站則通知相關的郵件服務器,并將檢測結果發(fā)送到網絡釣魚控制中心;如果無法確定則將相關信息發(fā)送給網絡釣魚控制中心做進一步的檢測。網絡釣魚控制中心一方面要維護釣魚網站黑名單以及受保護網頁數據庫;另一方面要負責同銀行等釣魚目標的交互,并收集相關證據,同時完成對釣魚網站的檢測判別,該中心需

9、要處理的任務十分龐大,因此網絡釣魚控制中心應該具有分布式結構。該體系能夠及時檢測釣魚郵件的分發(fā)并采取抑制措施,實時地對釣魚網頁進行判別;保護關鍵網站(如銀行登陸頁面)并能通過公安機關或運營商及時取締仿冒網站;最大限度的收集網絡釣魚的犯罪證據,為執(zhí)法機關提供破案,審判以及量刑的依據,同時維護廣大用戶的權益,幫助受害者挽回損失。4網頁相似性判斷算法在整個方法體系中,如何準確的對釣魚網頁進行檢測是必須要解決的關鍵技術問題。由于幾乎所有的釣魚網

10、頁都與原網頁十分相似(誘導用戶輸入敏感信息,如果不相似則容易引起用戶的警覺),基于此我們提出了基于圖像分割和嵌套EMD的網頁相似性判斷算法。該算法通過對網頁圖像進行分割、子圖特征提取、嵌套EMD距離計算等步驟構建網頁的ARG(AttributeRelationGraph),從而對其進行匹配計算并獲得可疑網頁與受保護網頁直接的視覺相似度,最終完成釣魚網頁的檢測判定。4.1網頁圖像分割由于絕大多數網頁都是由塊(block)所組成的,因此這些

11、塊的特征及其在網頁中的分布就決定了網頁的視覺特性。我們提出了一個網頁分割算法,該算法從視覺上將網頁分為各個子塊。首先網頁通過瀏覽器接口或軟件(如HtmltoJPG)將網頁轉換為圖片,并以此作為本文分割算法的輸入。算法如下所述:a)圖片預處理首先將輸入圖片轉換為灰度圖像,再使用特定算法(如Canny等)進行邊界檢測,得到邊界圖片(0為背景,1為邊界)。b)迭代處理假設輸入二值邊界圖片為BW,待分割區(qū)域為P1(x1y1),P2(x2y2)—

12、—圖片的邊界點,迭代進行一下五個步驟,直到所有的子圖都無法再分割。ⅰ.收縮。檢測出非0像素的邊界,即求出包含所有非0象素的最小矩形區(qū)域Pmin(xminymin)Pmax(xmaxymax);ⅱ.判斷該區(qū)域是否需要繼續(xù)分割。如果該區(qū)符太窄或太短則不進行分割,并將Pmax和Pmin記為BW的一個塊,否則繼續(xù)分割;ⅲ.檢測分割帶。分割代是指可能將該區(qū)域分為兩部分的區(qū)域,根據網頁的特點有水平和垂直兩種。分割帶既可以由0構成(代表背景),也可以

13、由1構成(代表邊界)。首先在Pmax和Pmin之間,分別在水平和垂直方向上進行檢測,如果某一行或列的構成趨于一致(絕大部分像素都為0或1)則該行或列為一個分割帶;然后合并分割帶,分別在水平和垂直方向將相鄰的分割帶合并成一個具有寬度的分割帶。如果未檢測出分割帶則說明該部分不可分割,并將Pmax和Pmin記為BW的一個部分。ⅳ.選擇分割帶。如果檢測出了分割帶則可根據某種策略選擇其中之一作為依據分割BW。選擇的策略一般為:優(yōu)先選擇邊界分割帶;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論