2005年--外文翻譯--基于方向梯度直方圖的行人檢測(cè)(譯文)_第1頁
已閱讀1頁,還剩11頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、<p>  中文1.1萬字,5820單詞,3萬英文字符</p><p>  出處:Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Confer

2、ence on. IEEE, 2005, 1: 886-893.</p><p><b>  外文譯文</b></p><p>  基于方向梯度直方圖的行人檢測(cè)</p><p>  作者: Navneet Dalal , Bill Triggs </p><p><b>  摘要</b>&l

3、t;/p><p>  我們采用基于線性 SVM(支持向量機(jī))的行人檢測(cè)作為測(cè)試案例來研究關(guān) 于健壯的實(shí)物視覺檢測(cè)特征集的問題。在通過實(shí)驗(yàn)測(cè)試了現(xiàn)存的所有基于邊緣與 直方圖的特征描述子滯后,我們認(rèn)為在行人檢測(cè)的應(yīng)用上,由 HOG(方向梯度 直方圖)提取的特征集明顯優(yōu)于現(xiàn)存的其它特征集。我們研究了各階段計(jì)算對(duì)檢 測(cè)性能的影響,得出了這樣的結(jié)論:尺度精細(xì)的梯度,精確的方向分割,相對(duì)粗 略的空間分級(jí)以及在重疊的描述塊中高質(zhì)量

4、的局部對(duì)比度歸一化都對(duì)良好的檢 測(cè)結(jié)果起著重要的作用。新方法在檢測(cè)原麻省理工學(xué)院行人數(shù)據(jù)庫中的信息時(shí)幾 乎給出了完美的區(qū)分,因此我們引入了一個(gè)更具挑戰(zhàn)的數(shù)據(jù)集,它包含著超過 1800 幅標(biāo)識(shí)的圖像,在這些圖像中行人的姿勢(shì)不同,背景各異。</p><p><b>  1.緒論</b></p><p>  鑒于在圖像中人的相貌各不相同、姿勢(shì)變化多端,要對(duì)其進(jìn)行檢測(cè)

5、是一個(gè)富 有挑戰(zhàn)性的任務(wù)。首先我們需要的是一個(gè)健壯的特征集,在這個(gè)特征集中,即使 是在在光照很差、背景雜亂的情況下,人形也能夠清楚地辨認(rèn)出來。我們對(duì)用于 行人檢測(cè)的特征集問題的研究顯示,相對(duì)于現(xiàn)存的包括小波在內(nèi)的其他特征集,基于局部歸一化方向梯度直方圖(HOG)的描述子表現(xiàn)出了極佳的性能。這一描述子讓人聯(lián)想到邊緣方向直方圖,SIFT 描述子和 shape context,但它們的計(jì)算 是基于一個(gè)由均勻間隔的胞元所形成的密集網(wǎng)格,而且為了

6、提高性能,使用了重 疊的局部對(duì)比度歸一化。以“行人檢測(cè)”(對(duì)大多可見并呈直立姿勢(shì)的人的檢測(cè))為一個(gè)測(cè)試案例,我們對(duì)各種實(shí)施的判斷對(duì)檢測(cè)器性能的影響做了細(xì)致的研究。為了使整個(gè)研究更為簡單和快速,我們采用了線性SVM為一個(gè)基礎(chǔ)的分類器。新的檢測(cè)器在檢測(cè)原麻省理工學(xué)院行人數(shù)據(jù)庫中的信息時(shí)表現(xiàn)基本上完美,所以 我們創(chuàng)建了一個(gè)更具挑戰(zhàn)的數(shù)據(jù)集,它包含著超過 1800 幅圖像,在這些圖像中 行人的姿勢(shì)不同,背景各異。正在進(jìn)行的工作表明,我們的特征集

7、在進(jìn)行其他的 基于形狀的實(shí)物檢測(cè)時(shí)同樣表現(xiàn)良好。</p><p>  在論文的第二部分,我們簡要地討論了在行人檢測(cè)方面前人所做的工作,在 論文的第三部分,我們對(duì)自己的方法做了概述,在論文的第四部分,我們介紹了 自己的數(shù)據(jù)庫,在論文的第五和第六部分,我們對(duì)檢測(cè)過程的各個(gè)步驟給出了細(xì) 致的描述和實(shí)驗(yàn)評(píng)價(jià)。而在論文的第七部分,則是我們得到的主要結(jié)論。</p><p><b>  2.前

8、人工作</b></p><p>  關(guān)于實(shí)物檢測(cè)的文獻(xiàn)為數(shù)眾多,但在這里我們僅僅列舉幾篇與行人檢測(cè)相關(guān) 的論文(見參考文獻(xiàn) 18,17,22,16,20)。參考文獻(xiàn) 6 是一份調(diào)查資料。Papageorgio 等人在參考文獻(xiàn) 18 中描述了一種基于多項(xiàng)式核函數(shù) SVM 分類算法的行人檢測(cè) 器,它使用修正 Haar 小波作為輸入的描述子,并有一個(gè)基于參考文獻(xiàn) 17 中的思 想變化而來的部件(子窗口)。而

9、 Depoortere 等人在參考文獻(xiàn) 2 中給出一個(gè)更優(yōu) 化的版本。Gavrila 和 Philomen 在慘老文獻(xiàn) 8 中則采取了更直接的辦法,他們提 取了邊緣圖像,并通過倒角距離,將它們與一系列已經(jīng)通過學(xué)習(xí)的例子進(jìn)行匹配。 這些已經(jīng)在參考文獻(xiàn) 7 提及的一個(gè)實(shí)用化的實(shí)時(shí)行人檢測(cè)系統(tǒng)中得到了應(yīng)用。Viola 等人在參考文獻(xiàn) 22 中創(chuàng)建一個(gè)高效的移動(dòng)行人檢測(cè)器,它使用 adaboost 算法來訓(xùn)練一個(gè)基于 Harr-like 小波和

10、時(shí)空差異的逐步復(fù)雜的區(qū)域拒絕規(guī)則鏈。Ronfard 等人在參考文獻(xiàn) 19 中通過引入基于 SVM 算法和一二階高斯濾波器的肢體分類器而創(chuàng)建了基于關(guān)節(jié)點(diǎn)的人體檢測(cè)器 , 這些都處于一個(gè) 類似于F</p><p><b>  3.方法概述</b></p><p>  這一章給出了我們進(jìn)行特征提取流程的概述,參考圖 1 對(duì)其進(jìn)行了總結(jié)。而 整個(gè)流程的細(xì)節(jié)部分我們將在第六章講

11、述。這種方法是基于在一個(gè)密集的網(wǎng)格中 評(píng)估完全歸一化后的圖像梯度方向的局部直方圖。在過去的十年中類似的特征得 到了越來越廣泛的應(yīng)用(見參考文獻(xiàn) 4,5,12,15)。其基本思想是,即使沒有確切 的相關(guān)梯度或邊緣位置的信息,物體局部的外觀和形狀也往往深受局部強(qiáng)度梯度 或者是邊緣方向的影響。在實(shí)際運(yùn)用中,這是通過將圖片窗口劃分成小的空間區(qū) 域(胞元)而實(shí)現(xiàn)的,對(duì)于每個(gè)胞元,都要對(duì)其中的像素的一維梯度方向直方圖 或是邊緣方向進(jìn)行累積統(tǒng)計(jì)。合并

12、后的直方圖就構(gòu)成了被檢測(cè)物的特征。為了使 其對(duì)光照、陰影等條件更加不敏感,在使用它們之前進(jìn)行對(duì)比度歸一化也是有必 要的。這一歸一化是通過對(duì)更大的空間區(qū)域(塊)中某一特征的局部直方圖的“能 量”進(jìn)行累積統(tǒng)計(jì),進(jìn)而對(duì)塊上的每一個(gè)胞元進(jìn)行歸一化來實(shí)現(xiàn)的。我們把歸一 化后的描述子塊作為方向梯度直方圖(HOG)描述子。對(duì)行人的檢測(cè)工作的流 程包括在由 HOG 描述子組成的密集(事實(shí)上有重疊)的網(wǎng)格上平行滑動(dòng)檢測(cè)窗 以及在基于 SVM 的窗口分類器

13、下使用組合特征</p><p>  參考圖 1.對(duì)我們特征提取和實(shí)物檢測(cè)流程的概述。檢測(cè)窗口由一些平鋪的重疊的塊組成的 網(wǎng)格構(gòu)成,在每個(gè)塊中提取方向梯度直方圖特征向量。合并后的向量送入一個(gè)線性 SVM 進(jìn)行 檢測(cè)目標(biāo)\非檢測(cè)目標(biāo)分類。這個(gè)檢測(cè)窗口會(huì)掃描不同大小的圖片的所有位置,并且傳統(tǒng)的 無最大值限制在輸出端得到應(yīng)用來檢測(cè)對(duì)象實(shí)例,但是這篇論文重點(diǎn)在于特征提取的流程。</p><p>  

14、以前對(duì)方向直方圖的使用也并不少見(見參考文獻(xiàn)13,4,5),然而,直到把它與局部空間直方圖計(jì)算和歸一化結(jié)合起來時(shí),這一方法才達(dá)到了成熟。Lowe 在參考文獻(xiàn) 12 中將尺度不變特征變換(SIFT)用于寬基線圖像匹配,并給出了 用于尺度不變關(guān)鍵點(diǎn)匹配的底端圖像層描述子?;?SIFT 的算法在這一應(yīng)用中 表現(xiàn)突出(見參考文獻(xiàn) 12,14)。Shape Context 算法則對(duì)胞元和塊得形狀進(jìn)行了 研究(見參考文獻(xiàn)1),盡管它最初只進(jìn)行了邊

15、緣像素的計(jì)數(shù),而沒有運(yùn)用方向 直方圖計(jì)算這一能夠大大提高所提取特征的有效性的方法。這些基于并不常見的 算法的特征的成功稍稍掩蓋了HOG 特征在用作密集圖片描述子時(shí)所表現(xiàn)出的強(qiáng)力和簡單的特性。我們?cè)噲D通過自己的研究來糾正這一點(diǎn)。值得一提的是,我們非正式的實(shí)驗(yàn)表明,在行人檢測(cè)這一方面,即使是當(dāng)今最好的基于關(guān)鍵點(diǎn)的方法,也要比我們密集網(wǎng)格的方法在假陽性率上高上 1 到 2 個(gè)數(shù)量級(jí),這主要是因?yàn)樵谖覀兯幕陉P(guān)鍵點(diǎn)的描述子中,沒有一個(gè)能夠?qū)?/p>

16、人體結(jié)構(gòu)進(jìn)行可靠的檢測(cè)。</p><p>  HOG/ SIFT 特征有幾處優(yōu)點(diǎn)。它不僅捕捉到了極具局部形狀代表性的邊緣或 是梯度結(jié)構(gòu),而且還捕捉到了一個(gè)局部特征,這一特征對(duì)局部的幾何和光學(xué)變換 的不敏感程度容易控制:如果它遠(yuǎn)比局部的空間或是方向區(qū)間小,轉(zhuǎn)換或是旋轉(zhuǎn) 對(duì)它來說就沒什么區(qū)別。對(duì)于行人檢測(cè),粗略空間采樣,精確方向采樣和完全的 光學(xué)條件歸一化才是最理想的策略,這可能是因?yàn)?,只要?duì)象保持大致直立的方 向,

17、可以容忍人的外觀由四肢和軀干各部分的活動(dòng)而帶來的改變。</p><p><b>  4.數(shù)據(jù)庫和方法</b></p><p>  數(shù)據(jù)庫:我們?cè)趦蓚€(gè)不同的數(shù)據(jù)庫中測(cè)試了我們的檢測(cè)器的效果。第一個(gè)是 完善的麻省理工學(xué)院的行人數(shù)據(jù)庫(見參考文獻(xiàn) 18),含 509 張訓(xùn)練用和 200 張 測(cè)試用的以城市風(fēng)光為背景的行人圖片(加上它們的左右影射)。它只包含了前 視和后視圖,

18、而且其中的姿勢(shì)的種類也相對(duì)有限,因此我們制作了一個(gè)全新而且 更具挑戰(zhàn)性的數(shù)據(jù)庫“INRIA”,它包含 1805 張 64×128 尺寸的從不同的個(gè)人圖</p><p>  片集中裁剪而來的行人圖片。參考圖 2 顯示了其中的一些樣本。圖片中的人們通 常是站立的姿勢(shì),但他們有可能朝著任何方向,其背景(甚至包括人群)也是多 種多樣。他們中的許多只是路人,所以他們的姿勢(shì)就不會(huì)有特殊的偏向。你可以 從以下網(wǎng)址下載

19、到這個(gè)數(shù)據(jù)庫 http://lear.inrialpes.fr/data for research purposes。</p><p>  參考圖 2.以上是我們新的行人檢測(cè)數(shù)據(jù)庫中的一些樣本圖片。樣本中的行人大多直立,但 也會(huì)有部分被遮擋,并且姿勢(shì)、外表、穿著、光照和背景變化多端。</p><p>  方法:我們選取了其中 1239 張圖片以及它們的左右影射(一共是 2478 張)<

20、;/p><p>  作為正樣本。從 1218 張行人訓(xùn)練用圖片中隨機(jī)抽取的 12180 個(gè)圖片塊組成的固 定集合構(gòu)成了最初的負(fù)樣本集。至于每個(gè)檢測(cè)器及其參數(shù)組合的確定,都會(huì)先訓(xùn) 練出一個(gè)基礎(chǔ)的檢測(cè)器,然后不斷對(duì) 1218 張訓(xùn)練用負(fù)養(yǎng)本圖片進(jìn)行排查,找出假陽性的例子(即“難例子”)。該方法通過這個(gè)擴(kuò)充集(最初的 12180 個(gè)樣本加上“難例子”)進(jìn)行再訓(xùn)練,就得到了最終的檢測(cè)器。如果有必要的話,可以對(duì)“難例子”集進(jìn)行

21、二次采樣,這樣最終訓(xùn)練集得描述子在進(jìn)入 SVM 訓(xùn)練之前就恰好能占據(jù) 1.7Gb 的 RAM 容量。這一再訓(xùn)練的過程極大地提高了每一個(gè)檢測(cè)器的性能(在對(duì)我們默認(rèn)檢測(cè)器進(jìn)行的在窗口假陽性測(cè)試(FPPW)中在 10-4 數(shù)量 級(jí)上提高了 5%),但更多次數(shù)的再訓(xùn)練并沒有多大區(qū)別,所以我們沒有再進(jìn)行下去。</p><p>  為了能夠定量地分析檢測(cè)器的性能,我們繪制了權(quán)衡檢測(cè)誤差的對(duì)數(shù)尺度曲線,即漏檢率(1—檢出率或者

22、是假陰率/真陽率與假陰率的和)對(duì)比誤檢率。其值越低則檢測(cè)器效果越好。DET 圖表在各類報(bào)告和美國國家標(biāo)準(zhǔn)技術(shù)研究院(NIST)的評(píng)估中得到了廣泛的應(yīng)用。它們傳達(dá)了類似接收端工作特性(ROC’s)的信息,但讓小概率的事件更容易加以區(qū)分。我們通常將漏檢率在10-4 數(shù)量級(jí)的窗口假陽性測(cè)試中用作參考點(diǎn)以得出結(jié)論。這有些專斷,但我們并沒有更多像位于 ROC 以下的區(qū)域這樣的可以觀測(cè)的指標(biāo)。在一個(gè)多尺度的檢測(cè)器中,針對(duì)每幅 640×4

23、80 的測(cè)試圖像都給出80%為假陽性的原始錯(cuò)誤率(由于沒有最大值的限制,整個(gè)檢測(cè)器的假陽率甚至都比它低)。我們的DET曲線的高度非常低,因此即使是在漏檢率上非常小的改進(jìn),也與在固定漏檢率下的窗口假陽性測(cè)試中大的提高相當(dāng)。例如,在10-4 數(shù)量級(jí)的窗口假陽性測(cè)試中,對(duì)于我們默認(rèn)的檢測(cè)器,在漏檢率上每 1%絕對(duì)的(9%相對(duì))的減少相當(dāng)于在在固定漏檢率下的窗口假陽 性測(cè)試中減少 1.57 倍。</p><p&

24、gt;<b>  5.檢測(cè)結(jié)果概述</b></p><p>  在進(jìn)行具體的檢測(cè)流程和性能分析之前,我們將基于 HOG 特征的檢測(cè)器總 體性能與現(xiàn)存的其它方法的性能作了比較。即將基于矩形特征(R-HOG)或是 環(huán)形指數(shù)極坐標(biāo)特征(C-HOG)塊和線性或核心 SVM 算法的檢測(cè)器分別同基于 Haar 小波,PCA-SIFT 和 shape context 的作了比較。簡而言之,這些方法如下所&

25、lt;/p><p>  示:廣義的 haar 小波:這是一個(gè)面向類 Harr 小波的擴(kuò)展特征集,它與參考文獻(xiàn)17 中所用到的類似,但性能上占優(yōu)。這些特征是通過 9×9 和 12×12 大小、以 45 度為間隔的面向一階和二階導(dǎo)數(shù)盒子濾波器以及對(duì)應(yīng)的二階導(dǎo)數(shù)直角坐標(biāo)濾波 器修正而來的參數(shù)。</p><p>  PCA-SIFT:這些描述子是通過將梯度圖像投影到用 PCA 對(duì)圖

26、像進(jìn)行訓(xùn)練學(xué)習(xí)后得到的基礎(chǔ)上而產(chǎn)生的(見參考文獻(xiàn) 11)。Ke和Sukthankar 發(fā)現(xiàn)這些特征 在基于關(guān)鍵點(diǎn)的匹配上表現(xiàn)比 SIFT 更加優(yōu)秀,但這是有爭議的(見參考文獻(xiàn) 14)。 我們實(shí)驗(yàn)中使用擁有相同導(dǎo)數(shù)級(jí)、重疊等特點(diǎn)的 16×16 大小的塊做為 HOG 描述 子。依據(jù)訓(xùn)練用的正樣本圖像,我們對(duì) PCA 的基礎(chǔ)參數(shù)做了計(jì)算。</p><p>  Shape Contexts:最初的 Shape

27、Contexts(見參考文獻(xiàn) 1)是用二進(jìn)制的邊緣 信息在指數(shù)極坐標(biāo)的區(qū)間內(nèi)投影,而并沒有考慮邊緣方向的因素。我們使用 C-HOG 描述子(如下所示)以及一個(gè)方向區(qū)間來模擬這種算法。16 種角度和 3 段散開的間隔加上內(nèi)徑的 2 個(gè)像素與外徑的 8 個(gè)像素的參數(shù)設(shè)置給出了最佳的結(jié) 果?;谔荻葟?qiáng)度信息和邊緣信息的投影都進(jìn)行了測(cè)試,其中邊緣閾值能夠自主 設(shè)定以最大化檢測(cè)器的性能(這些值在某種意義上可變,并都是從 20 到 50 灰度 級(jí)別

28、的區(qū)域中選取的)。</p><p>  實(shí)驗(yàn)結(jié)果:參考圖 3 顯示了各種檢測(cè)器在檢測(cè)麻省理工學(xué)院和 INRIA 數(shù)據(jù) 庫時(shí)所表現(xiàn)的性能?;贖OG的檢測(cè)器表現(xiàn)出來的性能 要比基于小 波、 PCA-SIFT 和 Shape Context 的要好得多,它在檢測(cè)麻省理工學(xué)院的數(shù)據(jù)庫時(shí)作 出了幾乎完全正確的判別,而在檢測(cè) INRIA 數(shù)據(jù)庫時(shí)則將誤檢率降低了一個(gè)數(shù) 量級(jí)。由于對(duì)輸出向量進(jìn)行了二階求導(dǎo)和對(duì)比度歸一化,我們

29、的類 Haar 小波特 征也比麻省理工學(xué)院的小波特征表現(xiàn)得更為突出。參考圖 3也向我們展示了麻省理工學(xué)院最好的基于部分和整體的檢測(cè)器(這些信息是從參考文獻(xiàn)17中得來),然而,想進(jìn)行一個(gè)確切的比較是不太可能的,這是因?yàn)槲覀儾恢绤⒖嘉墨I(xiàn) 17 的數(shù)據(jù)庫中的信息是怎樣分成訓(xùn)練樣本和測(cè)試樣本的,并且我們也沒能得到副樣 本。最終矩形(R-HOG)和環(huán)形(C-HOG)表現(xiàn)出的性能極為相似,其中 C-HOG 稍稍占優(yōu)。使用 增廣R-HOG 特 征結(jié)

30、合原始的塊檢測(cè)器(面向二階導(dǎo)數(shù)—“R2-HOG”)會(huì)將要提取的特征尺寸擴(kuò)大一倍,但最終能夠提高檢測(cè)性能(窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上提高 2%)。將線性 SVM 算法替換成高</p><p>  參考圖 3.被選中測(cè)試的檢測(cè)器在(左側(cè))麻省理工學(xué)院和(右側(cè))INRIA 數(shù)據(jù)庫表現(xiàn)出的性能。 詳細(xì)內(nèi)容見論文中的表述。</p><p>  6.檢測(cè)流程與性能分析</p>

31、<p>  現(xiàn)在我們給出 HOG檢測(cè)流程并系統(tǒng)地分析一下不同的判斷對(duì)檢測(cè)性能的影 響。在這一章中我們所得到的結(jié)果都是由有著如下特性的默認(rèn)檢測(cè)器得出的,具 體如下所示:RGB 色度空間且沒有伽馬校正;非平滑的[?1, 0, 1]梯度濾波器;線 性梯度在 0?–180?區(qū)間內(nèi)向九個(gè)方向的投影;16×16 像素塊以及 8×8 的像素胞元;高斯 σ= 8 像素空間窗口;L2-Hys(Lowe 式修正二級(jí)標(biāo)準(zhǔn))塊歸

32、一化;8 像素的 塊滑動(dòng)增量(因此每個(gè)胞元會(huì)被掃描 4 次);64×128 檢測(cè)窗口;線性 SVM 分類器。</p><p>  參考圖 4 顯示了不同的 HOG 特征參數(shù)對(duì)整體檢測(cè)性能的影響。這些在下面 的章節(jié)中將被仔細(xì)研究。主要的結(jié)論是,要想達(dá)到好的檢測(cè)效果,一個(gè)檢測(cè)器必 須用到適當(dāng)?shù)膶?dǎo)數(shù)級(jí)(基本上無平滑處理),更多方向區(qū)間,以及大小合適、歸 一化徹底并且重疊的描述塊。</p><

33、;p>  參考圖 4.詳細(xì)內(nèi)容見論文中的表述。</p><p>  6.1 伽馬/歸一化</p><p>  我們選擇性地運(yùn)用伽馬均衡評(píng)估了輸入像素的幾個(gè)特征,包括灰度級(jí),RGB 和 LAB 色度空間?;蛟S是因?yàn)楹竺娴拿枋鲎託w一化達(dá)到了類似的效果,這些歸 一化對(duì)檢測(cè)性能的影響不大。如果可以的話,我們也會(huì)使用色度信息。RGB 和 LAB 色度空間對(duì)檢測(cè)性能的影響類似,但是真正的阻礙在

34、于灰度級(jí),它使得檢 測(cè)性能在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上下降了 1.5%。對(duì)每個(gè)顏色通道進(jìn)行 平方根的伽馬壓縮會(huì)使檢測(cè)性能有小幅的提高(窗口假陽性測(cè)試中在10-4數(shù)量級(jí)上提高1%),但使用對(duì)數(shù)壓縮,壓縮幅度就太大了,會(huì)使檢測(cè)性能惡化,在10-4數(shù)量級(jí)的窗口假陽性測(cè)試中下降2%。</p><p><b>  6.2 梯度計(jì)算</b></p><p>  檢測(cè)器

35、性能的好壞對(duì)梯度計(jì)算的方式十分敏感,然而最簡單的方式卻是最有 效的。在梯度計(jì)算時(shí),我們對(duì)使用高斯平滑然后再加以離散導(dǎo)數(shù)掩膜的效果進(jìn)行 了測(cè)試。我們嘗試了若干平滑尺度,包括 σ=0(即不進(jìn)行高斯平滑)。我們還對(duì) 多種掩膜進(jìn)行了實(shí)驗(yàn),包括不同的一維單點(diǎn)導(dǎo)數(shù)掩膜(無中心點(diǎn)的[?1, 1]、有中 心點(diǎn)的[?1, 0, 1]和三次校正的[1,?8, 0, 8,?1])、3×3 的 Sobel 掩膜和 2×2 的對(duì)角掩 膜(最密

36、集的二維導(dǎo)數(shù)掩膜)。使用面積更大的掩膜似乎總會(huì)降低檢測(cè)性能,而 對(duì)高斯導(dǎo)數(shù)而言,進(jìn)行平滑會(huì)顯著地降低檢測(cè)性能,σ 的值從 0 上升到 2,窗口 假陽性測(cè)試中檢測(cè)率會(huì)在 10-4 數(shù)量級(jí)上從 89%下降到 80%。當(dāng) σ=0 時(shí),一維三 次校正五次濾波掩膜在性能上會(huì)比掩膜為[?1, 0, 1]的窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上差 1%,然而 2×2 的對(duì)角掩膜會(huì)差 1.5%。使用無中心點(diǎn)的導(dǎo)數(shù)掩膜[?1, 1] 同樣會(huì)降低

37、檢測(cè)性能(窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上下降 1.5%),這大概是 由方向信息估值受到基于不同中心得直角坐標(biāo)濾波器的影響所造成的。</p><p>  對(duì)于彩色圖像,我們會(huì)對(duì)每一個(gè)顏色通道計(jì)算各自的梯度,并且取其中幅值 最大的為像素的梯度向量。</p><p><b>  6.3 方向區(qū)間</b></p><p>  接下來的是基本為非

38、線性的描述子。計(jì)算每個(gè)像素對(duì)基于以自身為中心的方 向梯度元素的邊緣方向直方圖通道的加權(quán)投影,并且將這些投影累積到我們叫做 胞元的局部空間區(qū)域中的方向區(qū)間。胞元可以是長方形的或是環(huán)形的(對(duì)數(shù)級(jí)區(qū) 域)。方向區(qū)間在 0?–180?(“無符號(hào)”梯度)或是 0?–360?(“有符號(hào)”梯度)之間 均勻分布。為了減少混疊,我們對(duì)每個(gè)投影在方向和位置上都進(jìn)行了鄰近區(qū)間的 雙線性插值。這些投影是像素梯度幅值的函數(shù),無論是幅值本身,還是它的平方、 它的平

39、方根或是一種修正的幅值都代表了在像素邊緣的軟存在/缺失。在實(shí)際應(yīng) 用中,使用幅值本身能夠達(dá)到最好的效果。而取它的平方根會(huì)使檢測(cè)性能稍微降 低,使用二進(jìn)制邊緣信息投影則會(huì)大大降低檢測(cè)性能(窗口假陽性測(cè)試中在10-4 數(shù)量級(jí)上下降 5%)。</p><p>  精確的方向編碼對(duì)于好的檢測(cè)性能是必不可少的,而(見下文)空間分割就 可以相當(dāng)粗糙了。如參考圖 4(b)所示,增加方向區(qū)間的數(shù)量直到 9 個(gè)都能顯</p&

40、gt;<p>  著地提高檢測(cè)性能,但是再增加的話效果就不明顯。這是對(duì)于位于 0?–180?的方 向區(qū)間而言,也就是說梯度的“符號(hào)”忽略不計(jì)。即使方向區(qū)間的數(shù)量也加倍以 保持原有的方向分辨率,有符號(hào)梯度(方向區(qū)間位于 0?–360?,如最原始的 SIFT 描述子)還是會(huì)降低檢測(cè)性能。對(duì)于人類而言,穿著和背景顏色的多種多樣可能 會(huì)使得符號(hào)的標(biāo)識(shí)不能提供任何有用信息。然而,不要忘記有符號(hào)的信息確實(shí)在 其它的實(shí)物檢測(cè)中大幅提高了

41、其檢測(cè)性能,如汽車、摩托車檢測(cè)。</p><p>  6.4 歸一化和描述塊</p><p>  由于局部光照和前景背景對(duì)比的差異,梯度幅值分布在一個(gè)很寬的范圍之 內(nèi),因此有效的局部對(duì)比度歸一化對(duì)好的檢測(cè)性能就顯得尤為重要。我們?cè)u(píng)估了 許多不同的歸一化方案。大多數(shù)方案都是將胞元分組到更大的區(qū)域塊中并將每個(gè) 塊分別進(jìn)行對(duì)比歸一化。然后,在檢測(cè)窗口中的所有圖像塊返回的歸一化胞元的 所有部分組成

42、的向量就是最終的描述子。事實(shí)上,我們通常會(huì)使各塊重疊,這樣 就能使每個(gè)標(biāo)量的胞元返回值同時(shí)對(duì)最終的描述子中的幾個(gè)部分產(chǎn)生作用,其中 不同的塊都進(jìn)行了歸一化。這似乎是多此一舉,但是良好的歸一化非常關(guān)鍵,并 且包括重疊在內(nèi)的措施顯著地提高了檢測(cè)性能。參考圖 4(d)表明,由于我們 加入了重疊,從無(步長 16)到 16 倍區(qū)域/4 倍線性覆蓋(步長 4),使得檢測(cè)性 能在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上上升了 4%。</p>

43、;<p>  我們?cè)u(píng)估了兩類幾何形狀的塊,正方形或長方形的塊被分割成正方形或長方 形空間胞元的網(wǎng)格,而環(huán)形的塊則被分割成對(duì)數(shù)極的形態(tài)。我們將這兩種不同的 塊分別叫做 R-HOG 和 C-HOG(代表方形和環(huán)形 HOG)。</p><p>  R-HOG: R-HOG 與 SIFT 描述子(見參考文獻(xiàn) 12)有很多相同點(diǎn),但用法卻 有很多差異。它們經(jīng)過在密集網(wǎng)格中以單一的大小且沒有定向?qū)R的計(jì)算,并作

44、 為與檢測(cè)窗口相關(guān)的隱式編碼空間的一個(gè)更大的編碼向量的一部分,而 SIFT 描 述子則是在一個(gè)稀疏的關(guān)鍵點(diǎn)集中計(jì)算,通過旋轉(zhuǎn)使其方向?qū)R,然后單獨(dú)使用。 SIFT描述子適合稀疏的寬基線匹配,而R-HOG.描述子則適合致密健壯的空間形 態(tài)編碼。其它類似的描述子包括 Freeman 和 Roth 在參考文獻(xiàn) 4 中提到的邊緣方 向直方圖。我們通常使用方形的 R-HOG.描述子,即由 η×η 像素胞元組成的 ?×? 網(wǎng)格,

45、而每個(gè)網(wǎng)格中有 β 個(gè)方向區(qū)間,在這里 ?,η,β 都是描述子的參數(shù)。</p><p>  參考圖 5 繪制了窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上胞元大小以及胞元構(gòu)成的 塊的大小與漏檢率的關(guān)系。對(duì)于行人檢測(cè)而言,6×6 像素組成的胞元以及 3×3 這 樣的胞元組成的塊表現(xiàn)出來的檢測(cè)性能最好,在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上漏檢率為 10.4%。我們的標(biāo)準(zhǔn)是 8×8

46、像素組成的胞元以及 2×2 這樣的胞元組成 的塊,它表現(xiàn)出的性能與前者非常接近,排在第二位。事實(shí)上,不論塊大小如何, 胞元寬度為 6 到 8 個(gè)像素時(shí)表現(xiàn)出的性能最佳——這與人類的肢體大概就在圖像 中占 6—8 個(gè)像素是一個(gè)有趣的巧合。2×2 和 3×3 個(gè)胞元組成的塊效果最好。隨 著塊變得更大,局部圖像信息會(huì)相應(yīng)地被弱化,而塊太</p><p>  小時(shí)(1×1胞元組成的

47、塊, 也就是只在方向上進(jìn)行歸一化),重要的空間信息就得不到運(yùn)用。</p><p>  參考圖 5.不同胞元和塊大小在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上的漏檢率?;瑝K(塊重疊) 固定為塊大小的一半。3×3 個(gè)由 6×6 個(gè)像素組成的胞元構(gòu)成的塊的檢測(cè)性能最佳,漏檢率 為 10.4%。</p><p>  正如參考文獻(xiàn) 12 中所說,在累積計(jì)算方向在胞元上的投影之前,通

48、過使用</p><p>  高斯空間窗口濾波減小在塊邊緣的像素的權(quán)重是有必要的。這樣做在使用 σ 值為 塊大小一半的高斯濾波時(shí)能夠使檢測(cè)性能在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上 提高 1%。</p><p>  我們也在整個(gè)描述子之內(nèi)嘗試了多種大小的塊和胞元組合。這能稍稍提高檢 測(cè)性能(在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上大約提高 3%),其代價(jià)是會(huì)大大增 加描述子的大小。<

49、/p><p>  除了方形的 R-HOG 塊,我們也測(cè)試了垂直的(2×1 胞元)和水平的(1×2 胞元)的塊以及一個(gè)既有水平部分也有垂直部分的描述子。垂直的和垂直加水平 的塊比只有水平的在性能上明顯要好得多,但不如 2×2 或 3×3 個(gè)胞元組成的塊(窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上差 1%)。</p><p>  C-HOG:我們的環(huán)形塊狀描述子

50、(C-HOG)容易讓人聯(lián)想到 Shape Contexts, 但其中最重要的區(qū)別在于,每個(gè)胞元空間都包含了一堆有梯度權(quán)重的方向胞元而 不是單一的與方向無關(guān)的邊緣信息計(jì)數(shù)。對(duì)數(shù)極網(wǎng)絡(luò)原本是基于這樣一個(gè)思想, 那就是它可以將鄰近結(jié)構(gòu)的精確編碼與邊遠(yuǎn)區(qū)域的粗略編碼相結(jié)合,而事實(shí)上從 從視覺領(lǐng)域轉(zhuǎn)換到靈長類動(dòng)物的大腦中的影像也是對(duì)數(shù)變換(見參考文獻(xiàn)21)。 然而,小型且徑向區(qū)間很少的描述子表現(xiàn)出的性能最佳,因此在實(shí)際應(yīng)用中幾乎 沒有不均勻參數(shù)或

51、是相關(guān)背景。我們也可以把C-HOG描述子簡單地比作一種先 進(jìn)的中心環(huán)繞編碼方式。</p><p>  我們?cè)u(píng)估了兩種不同幾何形狀的C-HOG,其中之一是單一的環(huán)形中心胞元(與參考文獻(xiàn) 14 中提到的 GLOH 相似),另外一個(gè)是中心胞元被劃分成幾個(gè)類 似 shape contexts 中的角度區(qū)域。由于環(huán)形中心胞元的 C-HOG 比中心分割的 C-HOG 在實(shí)際應(yīng)用中表現(xiàn)相同性能時(shí)所需的空間胞元更少,因此我們只對(duì)

52、前者 進(jìn)行實(shí)驗(yàn)并得出結(jié)果。技術(shù)報(bào)告將提供進(jìn)一步的細(xì)節(jié)。這種C-HOG描述子總體有四個(gè)參數(shù):角度和徑向區(qū)間的數(shù)量;中心區(qū)間像素的半徑;其它區(qū)間半徑的補(bǔ) 償值。良好的檢測(cè)性能需要至少兩個(gè)徑向區(qū)間(一個(gè)中心和一個(gè)周邊)和四個(gè)角度區(qū)間(四等分)。包含額外的徑向區(qū)間不會(huì)使檢測(cè)性能有太大的改變,而增加角度區(qū)間則會(huì)使檢測(cè)性能下降(區(qū)間數(shù)目從 4 增長到 12,在窗口假陽性測(cè)試中 在 10-4 數(shù)量級(jí)上下降 1.3%)。4 像素是中心區(qū)間最佳的半徑大小

53、,但 3 個(gè)或是 5個(gè)得到的檢測(cè)效果區(qū)別不大。將補(bǔ)償參數(shù)從 2 提高到 3 基本上不會(huì)改變檢測(cè)性能。這些參數(shù)一經(jīng)確定,對(duì)其進(jìn)行高斯空間加權(quán)或是逆加權(quán)都不會(huì)改變檢測(cè)性能,但 是把二者結(jié)合起來就會(huì)讓性能稍微降低。得到這些值需要精確的方向采樣。Shap</p><p>  塊歸一化方案:我們對(duì)以上每種幾何形狀的HOG都測(cè)試了四種不同的歸一優(yōu)化方案。令 v 為未歸一化的描述子向量,||v||k 為它的 k-范數(shù)(k=1,

54、2),</p><p>  而ε為一個(gè)值為小的常數(shù)。具體方案是:</p><p><b> ?。╝)L2-范數(shù);</b></p><p><b> ?。?lt;/b></p><p> ?。╞)L2-Hys,取 L2-范數(shù)之后再進(jìn)行裁剪(將 v 的最大值限制在 0.2 之內(nèi))并且如參考文獻(xiàn) 12中所說進(jìn)行

55、反歸一化;</p><p> ?。╟)L1-范數(shù),;</p><p>  還有(d)L1-sqrt,取L1-范數(shù)之后再取平方根,</p><p>  這相當(dāng)于將描述子向量用作率分布并且利用他們之間的 Bhattacharya 距離。參考圖 4(c)顯示,L2-Hys, L2- 范數(shù)和 L1-sqrt 表現(xiàn)出的性能一樣好,而單一的 L1-范數(shù)會(huì)使檢測(cè)性能在窗口假 陽性

56、測(cè)試中在 10-4 數(shù)量級(jí)上下降 5%,而完全不進(jìn)行歸一化則會(huì)使其下降 27%。 由于我們對(duì)包括空的部分的所有描述子進(jìn)行密集地估值,因此需要一個(gè)規(guī)則化因 子ε,但檢測(cè)結(jié)果卻在一個(gè)大的區(qū)間內(nèi)對(duì)ε的值十分敏感。</p><p>  中心周邊歸一化:我們同樣也評(píng)估了另一種中心周邊式的胞元?dú)w一化方案,其中圖像被劃分為一系列平鋪的胞元組成的網(wǎng)格,而對(duì)每個(gè)胞元而言,它的總權(quán) 重和周圍區(qū)域(統(tǒng)計(jì)了方向信息并集中使用了高斯加權(quán)濾

57、波)被用來對(duì)該胞元進(jìn) 行歸一化。然而,正如參考圖4(c)(“窗口規(guī)范”)所示,這種方法與對(duì)應(yīng)的基 于塊的方案相比降低了檢測(cè)性能(在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上下降 2%, 濾波時(shí)胞元寬度σ=1)。其中的一個(gè)原因是塊之間不再重疊,這樣每個(gè)胞元在最 終的描述子里僅僅編碼計(jì)算一次?;诓煌瑸V波尺度σ的胞元中加入幾種歸一化 并不能明顯地改變檢測(cè)性能,因此,在這里似乎是幾處濾波區(qū)域的存在和相關(guān)胞 元中空間區(qū)域的偏移顯得更為重要,而不是濾

58、波的尺度。</p><p>  為了解釋清楚這一點(diǎn),我們考慮使用了包含重疊塊的 R-HOG 檢測(cè)器。根據(jù) 線性 SVM 訓(xùn)練所得的系數(shù)來賦予每個(gè)塊中的每個(gè)胞元在最終的判決中應(yīng)占的權(quán) 重。仔細(xì)分析參考圖 6(b,f)就能得出,通常那些包含人體輪廓(特別是頭, 肩和腳)的才是最重要的胞元,歸一化時(shí)與輪廓周圍的胞元相關(guān)。換句話說—除 了在我們的訓(xùn)練集中常見的復(fù)雜混亂的背景—檢測(cè)器主用關(guān)注的是輪廓線條與 背景的對(duì)比,而不

59、是內(nèi)部邊緣信息或輪廓線條與前景的對(duì)比。服裝圖案與行人姿</p><p>  態(tài)的千變?nèi)f化可能會(huì)使內(nèi)部區(qū)域信息不能用作可靠的檢測(cè)依據(jù),而前景到輪廓的 轉(zhuǎn)換同樣可能會(huì)受到平滑著色和陰影效果的混淆。相似的是,參考圖 6(c,g) 證明了人體內(nèi)部的直方圖(尤其是垂直的)通常算作反面的檢測(cè)依據(jù),這可能是 因?yàn)樗陂L的垂線一定與垂直的頭部與腿部胞元相關(guān)的基礎(chǔ)之上減少了誤報(bào)。</p><p>  參考圖

60、 6.我們的 HOG 檢測(cè)器主要的檢測(cè)線索是輪廓線條(特別是頭部,肩膀和腳)。最有用 是以正好在輪廓外圍的圖片背景為中心的塊。參考圖 a:訓(xùn)練樣本的平均梯度圖像。參考圖 b:每個(gè)“像素”顯示在塊中的最大正 SVM 權(quán)重。參考圖 c:與上圖對(duì)應(yīng)的負(fù) SVM 權(quán)重。參 考圖 d:一張測(cè)試圖像。參考圖 e:由這張圖像計(jì)算而來的 R-HOG 描述子。參考圖(f,g): 該 R-HOG 分別在 SVM 中的正負(fù)權(quán)重。</p><

61、;p>  6.5 檢測(cè)窗口與背景</p><p>  我們 64×128 的檢測(cè)窗口包含了在人四周邊緣的約16 個(gè)像素。參考圖(e)</p><p>  表明這一邊界提供了大量有助于檢測(cè)的信息。將這個(gè)邊界從16 個(gè)像素降至 8 個(gè)像素(即 48×112 的檢測(cè)窗口)會(huì)使檢測(cè)性能在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上下降下降 4%。保持 64×128 的

62、檢測(cè)窗口大小不變,增大窗口中人的大?。ㄍ?時(shí)減少邊界像素個(gè)數(shù))會(huì)導(dǎo)致類似的檢測(cè)性能下降,即便人的分辨率確實(shí)是上升 了。</p><p><b>  分類器</b></p><p>  默認(rèn)情況下,我們使用一個(gè)軟(C=0.01)線性 SVM 和參考文獻(xiàn) 10 中的 SVMLight(略作修改以減少在處理高密度描述子向量問題時(shí)內(nèi)存的占用率)來 訓(xùn)練。使用高斯核心 SVM

63、能夠使檢測(cè)性能在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上 提高3%,其代價(jià)是檢測(cè)時(shí)間會(huì)大大增長。</p><p><b>  分析</b></p><p>  總的來說,在這項(xiàng)工作中有幾個(gè)值得注意的發(fā)現(xiàn)。HOG 的檢測(cè)性能大大強(qiáng) 于小波,并且在計(jì)算梯度之前任何相當(dāng)程度的平滑都會(huì)損害 HOG 的檢測(cè)效果, 這些事實(shí)都強(qiáng)調(diào)了大部分的圖像信息都來源于合適尺度的陡峭邊緣,而將其

64、模糊 化以希望達(dá)到減少對(duì)空間位置的敏感性的做法是不可取的。相反,應(yīng)該在最適合 的尺度下在現(xiàn)有的層次計(jì)算梯度,修正或是利用方向投影的方法,而之后才能進(jìn) 行空間模糊。鑒于此,相對(duì)粗糙的空間量化就足夠了(胞元中 6 到 8 個(gè)像素的寬/一段肢體的寬度)。另一方面,至少是對(duì)于行人檢測(cè)而言,它對(duì)于方向信息的采</p><p>  樣更為精確,而小波和 shape contexts 在這方面就差遠(yuǎn)了。其次,徹底的局部對(duì)比度歸

65、一化對(duì)于好的檢測(cè)結(jié)果是必要的,而傳統(tǒng)的中心周邊式的方案則不是最好的選擇。要達(dá)到更好的效果,需要?dú)w一化與不同局域特征相關(guān)所有的元素(邊緣信息,胞元)數(shù)次,并且將這些結(jié)果當(dāng)作獨(dú)立的標(biāo)識(shí)。在我們標(biāo)準(zhǔn)的檢測(cè)器中,每個(gè) HOG 胞元在不同的歸一化中一共用到四次,而將 這一“重復(fù)”的信息加入進(jìn)來能夠使檢測(cè)率在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上 從 84%提高到 89%。</p><p><b>  7.結(jié)論&l

66、t;/b></p><p>  我們已經(jīng)表明,在密集重疊的網(wǎng)格中,使用與參考文獻(xiàn) 12 中提到的 SIFT 描述子類似的局部歸一化方向梯度直方圖,在行人檢測(cè)方面效果甚佳,比參考文 獻(xiàn) 17 中提到的最好的基于 Haar 小波特征的檢測(cè)器在假陽率上減少了超過一個(gè)數(shù)量級(jí)。我們研究了各種描述子參數(shù)對(duì)檢測(cè)性能的影響,總結(jié)得出,合適大小的梯度,精確的方向區(qū)間劃分,相對(duì)粗糙的空間區(qū)域劃分和在重疊的描述子塊中高質(zhì) 量的局

67、部對(duì)比度歸一化對(duì)于好的檢測(cè)性能來說都很重要。我們也創(chuàng)建了一個(gè)新的且更具挑戰(zhàn)性的行人數(shù)據(jù)庫,并將其公之于眾。</p><p>  未來的工作:雖然我們目前的線性 SVM 檢測(cè)器相當(dāng)高效—檢測(cè)一張 320×240 的圖片(4000 檢測(cè)窗口)用時(shí)不到一秒—但是仍有繼續(xù)優(yōu)化的空間,并能夠在未來加快檢測(cè)的速度,在開發(fā)從粗到精或是基于 HOG 描述子的拒絕鏈?zhǔn)綑z測(cè)器 時(shí)派上用場。我們也研究了基于 HOG 描述子的

68、檢測(cè)器,它將塊匹配或是光學(xué)流 動(dòng)區(qū)域有機(jī)地結(jié)合起來。最后,盡管現(xiàn)在的固定模板式檢測(cè)器在總體可見的行人檢測(cè)方面難以被超越,鑒于人類有高度的關(guān)節(jié)性,我們還是相信加入一個(gè)局部空 間有更大不變性的基于部分的模型將會(huì)使檢測(cè)性能在更廣泛的領(lǐng)域得到提高。</p><p><b>  致謝</b></p><p>  這項(xiàng)工作得到了研究項(xiàng)目 ACEMEDIA 和 PASCAL 的幫助

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論