2005年--外文翻譯--基于方向梯度直方圖的行人檢測(cè)（譯文）

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-01 格式：docx 頁數(shù)：12 大小：504.94KB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁，還剩11頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、　　中文1.1萬字，5820單詞，3萬英文字符　　出處：Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Confer

2、ence on. IEEE, 2005, 1: 886-893.　　外文譯文　　基于方向梯度直方圖的行人檢測(cè)　　作者: Navneet Dalal , Bill Triggs 　　摘要&l

3、t;/p>　　我們采用基于線性 SVM（支持向量機(jī)）的行人檢測(cè)作為測(cè)試案例來研究關(guān) 于健壯的實(shí)物視覺檢測(cè)特征集的問題。在通過實(shí)驗(yàn)測(cè)試了現(xiàn)存的所有基于邊緣與直方圖的特征描述子滯后，我們認(rèn)為在行人檢測(cè)的應(yīng)用上，由 HOG（方向梯度直方圖）提取的特征集明顯優(yōu)于現(xiàn)存的其它特征集。我們研究了各階段計(jì)算對(duì)檢測(cè)性能的影響，得出了這樣的結(jié)論：尺度精細(xì)的梯度，精確的方向分割，相對(duì)粗略的空間分級(jí)以及在重疊的描述塊中高質(zhì)量

4、的局部對(duì)比度歸一化都對(duì)良好的檢測(cè)結(jié)果起著重要的作用。新方法在檢測(cè)原麻省理工學(xué)院行人數(shù)據(jù)庫中的信息時(shí)幾乎給出了完美的區(qū)分，因此我們引入了一個(gè)更具挑戰(zhàn)的數(shù)據(jù)集，它包含著超過 1800 幅標(biāo)識(shí)的圖像，在這些圖像中行人的姿勢(shì)不同，背景各異。　　1.緒論　　鑒于在圖像中人的相貌各不相同、姿勢(shì)變化多端，要對(duì)其進(jìn)行檢測(cè)

5、是一個(gè)富有挑戰(zhàn)性的任務(wù)。首先我們需要的是一個(gè)健壯的特征集，在這個(gè)特征集中，即使是在在光照很差、背景雜亂的情況下，人形也能夠清楚地辨認(rèn)出來。我們對(duì)用于行人檢測(cè)的特征集問題的研究顯示，相對(duì)于現(xiàn)存的包括小波在內(nèi)的其他特征集，基于局部歸一化方向梯度直方圖（HOG）的描述子表現(xiàn)出了極佳的性能。這一描述子讓人聯(lián)想到邊緣方向直方圖，SIFT 描述子和 shape context，但它們的計(jì)算是基于一個(gè)由均勻間隔的胞元所形成的密集網(wǎng)格，而且為了

6、提高性能，使用了重疊的局部對(duì)比度歸一化。以“行人檢測(cè)”（對(duì)大多可見并呈直立姿勢(shì)的人的檢測(cè)）為一個(gè)測(cè)試案例，我們對(duì)各種實(shí)施的判斷對(duì)檢測(cè)器性能的影響做了細(xì)致的研究。為了使整個(gè)研究更為簡(jiǎn)單和快速，我們采用了線性SVM為一個(gè)基礎(chǔ)的分類器。新的檢測(cè)器在檢測(cè)原麻省理工學(xué)院行人數(shù)據(jù)庫中的信息時(shí)表現(xiàn)基本上完美，所以我們創(chuàng)建了一個(gè)更具挑戰(zhàn)的數(shù)據(jù)集，它包含著超過 1800 幅圖像，在這些圖像中行人的姿勢(shì)不同，背景各異。正在進(jìn)行的工作表明，我們的特征集

7、在進(jìn)行其他的基于形狀的實(shí)物檢測(cè)時(shí)同樣表現(xiàn)良好。　　在論文的第二部分，我們簡(jiǎn)要地討論了在行人檢測(cè)方面前人所做的工作，在論文的第三部分，我們對(duì)自己的方法做了概述，在論文的第四部分，我們介紹了自己的數(shù)據(jù)庫，在論文的第五和第六部分，我們對(duì)檢測(cè)過程的各個(gè)步驟給出了細(xì) 致的描述和實(shí)驗(yàn)評(píng)價(jià)。而在論文的第七部分，則是我們得到的主要結(jié)論。　　2.前

8、人工作　　關(guān)于實(shí)物檢測(cè)的文獻(xiàn)為數(shù)眾多，但在這里我們僅僅列舉幾篇與行人檢測(cè)相關(guān) 的論文（見參考文獻(xiàn) 18，17，22，16，20）。參考文獻(xiàn) 6 是一份調(diào)查資料。Papageorgio 等人在參考文獻(xiàn) 18 中描述了一種基于多項(xiàng)式核函數(shù) SVM 分類算法的行人檢測(cè) 器，它使用修正 Haar 小波作為輸入的描述子，并有一個(gè)基于參考文獻(xiàn) 17 中的思想變化而來的部件（子窗口）。而

9、 Depoortere 等人在參考文獻(xiàn) 2 中給出一個(gè)更優(yōu) 化的版本。Gavrila 和 Philomen 在慘老文獻(xiàn) 8 中則采取了更直接的辦法，他們提取了邊緣圖像，并通過倒角距離，將它們與一系列已經(jīng)通過學(xué)習(xí)的例子進(jìn)行匹配。這些已經(jīng)在參考文獻(xiàn) 7 提及的一個(gè)實(shí)用化的實(shí)時(shí)行人檢測(cè)系統(tǒng)中得到了應(yīng)用。Viola 等人在參考文獻(xiàn) 22 中創(chuàng)建一個(gè)高效的移動(dòng)行人檢測(cè)器，它使用 adaboost 算法來訓(xùn)練一個(gè)基于 Harr-like 小波和

10、時(shí)空差異的逐步復(fù)雜的區(qū)域拒絕規(guī)則鏈。Ronfard 等人在參考文獻(xiàn) 19 中通過引入基于 SVM 算法和一二階高斯濾波器的肢體分類器而創(chuàng)建了基于關(guān)節(jié)點(diǎn)的人體檢測(cè)器，這些都處于一個(gè) 類似于F　　3.方法概述　　這一章給出了我們進(jìn)行特征提取流程的概述，參考圖 1 對(duì)其進(jìn)行了總結(jié)。而整個(gè)流程的細(xì)節(jié)部分我們將在第六章講

11、述。這種方法是基于在一個(gè)密集的網(wǎng)格中評(píng)估完全歸一化后的圖像梯度方向的局部直方圖。在過去的十年中類似的特征得到了越來越廣泛的應(yīng)用（見參考文獻(xiàn) 4,5,12,15）。其基本思想是，即使沒有確切的相關(guān)梯度或邊緣位置的信息，物體局部的外觀和形狀也往往深受局部強(qiáng)度梯度或者是邊緣方向的影響。在實(shí)際運(yùn)用中，這是通過將圖片窗口劃分成小的空間區(qū) 域（胞元）而實(shí)現(xiàn)的，對(duì)于每個(gè)胞元，都要對(duì)其中的像素的一維梯度方向直方圖或是邊緣方向進(jìn)行累積統(tǒng)計(jì)。合并

12、后的直方圖就構(gòu)成了被檢測(cè)物的特征。為了使其對(duì)光照、陰影等條件更加不敏感，在使用它們之前進(jìn)行對(duì)比度歸一化也是有必要的。這一歸一化是通過對(duì)更大的空間區(qū)域（塊）中某一特征的局部直方圖的“能量”進(jìn)行累積統(tǒng)計(jì)，進(jìn)而對(duì)塊上的每一個(gè)胞元進(jìn)行歸一化來實(shí)現(xiàn)的。我們把歸一化后的描述子塊作為方向梯度直方圖（HOG）描述子。對(duì)行人的檢測(cè)工作的流程包括在由 HOG 描述子組成的密集（事實(shí)上有重疊）的網(wǎng)格上平行滑動(dòng)檢測(cè)窗以及在基于 SVM 的窗口分類器

13、下使用組合特征　　參考圖 1.對(duì)我們特征提取和實(shí)物檢測(cè)流程的概述。檢測(cè)窗口由一些平鋪的重疊的塊組成的網(wǎng)格構(gòu)成，在每個(gè)塊中提取方向梯度直方圖特征向量。合并后的向量送入一個(gè)線性 SVM 進(jìn)行檢測(cè)目標(biāo)\非檢測(cè)目標(biāo)分類。這個(gè)檢測(cè)窗口會(huì)掃描不同大小的圖片的所有位置，并且傳統(tǒng)的無最大值限制在輸出端得到應(yīng)用來檢測(cè)對(duì)象實(shí)例，但是這篇論文重點(diǎn)在于特征提取的流程。

14、以前對(duì)方向直方圖的使用也并不少見（見參考文獻(xiàn)13，4，5），然而，直到把它與局部空間直方圖計(jì)算和歸一化結(jié)合起來時(shí)，這一方法才達(dá)到了成熟。Lowe 在參考文獻(xiàn) 12 中將尺度不變特征變換（SIFT）用于寬基線圖像匹配，并給出了用于尺度不變關(guān)鍵點(diǎn)匹配的底端圖像層描述子。基于 SIFT 的算法在這一應(yīng)用中表現(xiàn)突出（見參考文獻(xiàn) 12，14）。Shape Context 算法則對(duì)胞元和塊得形狀進(jìn)行了研究（見參考文獻(xiàn)1），盡管它最初只進(jìn)行了邊

15、緣像素的計(jì)數(shù)，而沒有運(yùn)用方向直方圖計(jì)算這一能夠大大提高所提取特征的有效性的方法。這些基于并不常見的算法的特征的成功稍稍掩蓋了HOG 特征在用作密集圖片描述子時(shí)所表現(xiàn)出的強(qiáng)力和簡(jiǎn)單的特性。我們?cè)噲D通過自己的研究來糾正這一點(diǎn)。值得一提的是，我們非正式的實(shí)驗(yàn)表明，在行人檢測(cè)這一方面，即使是當(dāng)今最好的基于關(guān)鍵點(diǎn)的方法，也要比我們密集網(wǎng)格的方法在假陽性率上高上 1 到 2 個(gè)數(shù)量級(jí)，這主要是因?yàn)樵谖覀兯幕陉P(guān)鍵點(diǎn)的描述子中，沒有一個(gè)能夠?qū)?/p>

16、人體結(jié)構(gòu)進(jìn)行可靠的檢測(cè)。　　HOG/ SIFT 特征有幾處優(yōu)點(diǎn)。它不僅捕捉到了極具局部形狀代表性的邊緣或是梯度結(jié)構(gòu)，而且還捕捉到了一個(gè)局部特征，這一特征對(duì)局部的幾何和光學(xué)變換的不敏感程度容易控制：如果它遠(yuǎn)比局部的空間或是方向區(qū)間小，轉(zhuǎn)換或是旋轉(zhuǎn) 對(duì)它來說就沒什么區(qū)別。對(duì)于行人檢測(cè)，粗略空間采樣，精確方向采樣和完全的光學(xué)條件歸一化才是最理想的策略，這可能是因?yàn)椋灰獙?duì)象保持大致直立的方向，

17、可以容忍人的外觀由四肢和軀干各部分的活動(dòng)而帶來的改變。　　4.數(shù)據(jù)庫和方法　　數(shù)據(jù)庫：我們?cè)趦蓚€(gè)不同的數(shù)據(jù)庫中測(cè)試了我們的檢測(cè)器的效果。第一個(gè)是完善的麻省理工學(xué)院的行人數(shù)據(jù)庫（見參考文獻(xiàn) 18），含 509 張訓(xùn)練用和 200 張測(cè)試用的以城市風(fēng)光為背景的行人圖片（加上它們的左右影射）。它只包含了前視和后視圖，

18、而且其中的姿勢(shì)的種類也相對(duì)有限，因此我們制作了一個(gè)全新而且更具挑戰(zhàn)性的數(shù)據(jù)庫“INRIA”，它包含 1805 張 64×128 尺寸的從不同的個(gè)人圖　　片集中裁剪而來的行人圖片。參考圖 2 顯示了其中的一些樣本。圖片中的人們通常是站立的姿勢(shì)，但他們有可能朝著任何方向，其背景（甚至包括人群）也是多種多樣。他們中的許多只是路人，所以他們的姿勢(shì)就不會(huì)有特殊的偏向。你可以從以下網(wǎng)址下載

19、到這個(gè)數(shù)據(jù)庫 http://lear.inrialpes.fr/data for research purposes。　　參考圖 2.以上是我們新的行人檢測(cè)數(shù)據(jù)庫中的一些樣本圖片。樣本中的行人大多直立，但也會(huì)有部分被遮擋，并且姿勢(shì)、外表、穿著、光照和背景變化多端。　　方法：我們選取了其中 1239 張圖片以及它們的左右影射（一共是 2478 張）<

20、;/p>　　作為正樣本。從 1218 張行人訓(xùn)練用圖片中隨機(jī)抽取的 12180 個(gè)圖片塊組成的固定集合構(gòu)成了最初的負(fù)樣本集。至于每個(gè)檢測(cè)器及其參數(shù)組合的確定，都會(huì)先訓(xùn) 練出一個(gè)基礎(chǔ)的檢測(cè)器，然后不斷對(duì) 1218 張訓(xùn)練用負(fù)養(yǎng)本圖片進(jìn)行排查，找出假陽性的例子（即“難例子”）。該方法通過這個(gè)擴(kuò)充集（最初的 12180 個(gè)樣本加上“難例子”）進(jìn)行再訓(xùn)練，就得到了最終的檢測(cè)器。如果有必要的話，可以對(duì)“難例子”集進(jìn)行

21、二次采樣，這樣最終訓(xùn)練集得描述子在進(jìn)入 SVM 訓(xùn)練之前就恰好能占據(jù) 1.7Gb 的 RAM 容量。這一再訓(xùn)練的過程極大地提高了每一個(gè)檢測(cè)器的性能（在對(duì)我們默認(rèn)檢測(cè)器進(jìn)行的在窗口假陽性測(cè)試（FPPW）中在 10-4 數(shù)量級(jí)上提高了 5%），但更多次數(shù)的再訓(xùn)練并沒有多大區(qū)別，所以我們沒有再進(jìn)行下去。　　為了能夠定量地分析檢測(cè)器的性能，我們繪制了權(quán)衡檢測(cè)誤差的對(duì)數(shù)尺度曲線，即漏檢率（1—檢出率或者

22、是假陰率/真陽率與假陰率的和）對(duì)比誤檢率。其值越低則檢測(cè)器效果越好。DET 圖表在各類報(bào)告和美國國家標(biāo)準(zhǔn)技術(shù)研究院（NIST）的評(píng)估中得到了廣泛的應(yīng)用。它們傳達(dá)了類似接收端工作特性（ROC’s）的信息，但讓小概率的事件更容易加以區(qū)分。我們通常將漏檢率在10-4 數(shù)量級(jí)的窗口假陽性測(cè)試中用作參考點(diǎn)以得出結(jié)論。這有些專斷，但我們并沒有更多像位于 ROC 以下的區(qū)域這樣的可以觀測(cè)的指標(biāo)。在一個(gè)多尺度的檢測(cè)器中，針對(duì)每幅 640×4

23、80 的測(cè)試圖像都給出80%為假陽性的原始錯(cuò)誤率（由于沒有最大值的限制，整個(gè)檢測(cè)器的假陽率甚至都比它低）。我們的DET曲線的高度非常低，因此即使是在漏檢率上非常小的改進(jìn)，也與在固定漏檢率下的窗口假陽性測(cè)試中大的提高相當(dāng)。例如，在10-4 數(shù)量級(jí)的窗口假陽性測(cè)試中，對(duì)于我們默認(rèn)的檢測(cè)器，在漏檢率上每 1%絕對(duì)的（9%相對(duì)）的減少相當(dāng)于在在固定漏檢率下的窗口假陽性測(cè)試中減少 1.57 倍。<p&

24、gt;　　5.檢測(cè)結(jié)果概述　　在進(jìn)行具體的檢測(cè)流程和性能分析之前，我們將基于 HOG 特征的檢測(cè)器總體性能與現(xiàn)存的其它方法的性能作了比較。即將基于矩形特征（R-HOG）或是環(huán)形指數(shù)極坐標(biāo)特征（C-HOG）塊和線性或核心 SVM 算法的檢測(cè)器分別同基于 Haar 小波，PCA-SIFT 和 shape context 的作了比較。簡(jiǎn)而言之，這些方法如下所&

25、lt;/p>　　示：廣義的 haar 小波：這是一個(gè)面向類 Harr 小波的擴(kuò)展特征集，它與參考文獻(xiàn)17 中所用到的類似，但性能上占優(yōu)。這些特征是通過 9×9 和 12×12 大小、以 45 度為間隔的面向一階和二階導(dǎo)數(shù)盒子濾波器以及對(duì)應(yīng)的二階導(dǎo)數(shù)直角坐標(biāo)濾波器修正而來的參數(shù)。　　PCA-SIFT：這些描述子是通過將梯度圖像投影到用 PCA 對(duì)圖

26、像進(jìn)行訓(xùn)練學(xué)習(xí)后得到的基礎(chǔ)上而產(chǎn)生的（見參考文獻(xiàn) 11）。Ke和Sukthankar 發(fā)現(xiàn)這些特征在基于關(guān)鍵點(diǎn)的匹配上表現(xiàn)比 SIFT 更加優(yōu)秀，但這是有爭(zhēng)議的（見參考文獻(xiàn) 14）。我們實(shí)驗(yàn)中使用擁有相同導(dǎo)數(shù)級(jí)、重疊等特點(diǎn)的 16×16 大小的塊做為 HOG 描述子。依據(jù)訓(xùn)練用的正樣本圖像，我們對(duì) PCA 的基礎(chǔ)參數(shù)做了計(jì)算。　　Shape Contexts：最初的 Shape

27、Contexts（見參考文獻(xiàn) 1）是用二進(jìn)制的邊緣信息在指數(shù)極坐標(biāo)的區(qū)間內(nèi)投影，而并沒有考慮邊緣方向的因素。我們使用 C-HOG 描述子（如下所示）以及一個(gè)方向區(qū)間來模擬這種算法。16 種角度和 3 段散開的間隔加上內(nèi)徑的 2 個(gè)像素與外徑的 8 個(gè)像素的參數(shù)設(shè)置給出了最佳的結(jié) 果?；谔荻葟?qiáng)度信息和邊緣信息的投影都進(jìn)行了測(cè)試，其中邊緣閾值能夠自主設(shè)定以最大化檢測(cè)器的性能（這些值在某種意義上可變，并都是從 20 到 50 灰度級(jí)別

28、的區(qū)域中選取的）。　　實(shí)驗(yàn)結(jié)果：參考圖 3 顯示了各種檢測(cè)器在檢測(cè)麻省理工學(xué)院和 INRIA 數(shù)據(jù) 庫時(shí)所表現(xiàn)的性能。基于HOG的檢測(cè)器表現(xiàn)出來的性能要比基于小波、 PCA-SIFT 和 Shape Context 的要好得多，它在檢測(cè)麻省理工學(xué)院的數(shù)據(jù)庫時(shí)作出了幾乎完全正確的判別，而在檢測(cè) INRIA 數(shù)據(jù)庫時(shí)則將誤檢率降低了一個(gè)數(shù) 量級(jí)。由于對(duì)輸出向量進(jìn)行了二階求導(dǎo)和對(duì)比度歸一化，我們

29、的類 Haar 小波特征也比麻省理工學(xué)院的小波特征表現(xiàn)得更為突出。參考圖 3也向我們展示了麻省理工學(xué)院最好的基于部分和整體的檢測(cè)器（這些信息是從參考文獻(xiàn)17中得來），然而，想進(jìn)行一個(gè)確切的比較是不太可能的，這是因?yàn)槲覀儾恢绤⒖嘉墨I(xiàn) 17 的數(shù)據(jù)庫中的信息是怎樣分成訓(xùn)練樣本和測(cè)試樣本的，并且我們也沒能得到副樣本。最終矩形（R-HOG）和環(huán)形(C-HOG)表現(xiàn)出的性能極為相似，其中 C-HOG 稍稍占優(yōu)。使用增廣R-HOG 特征結(jié)

30、合原始的塊檢測(cè)器（面向二階導(dǎo)數(shù)—“R2-HOG”）會(huì)將要提取的特征尺寸擴(kuò)大一倍，但最終能夠提高檢測(cè)性能（窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上提高 2%）。將線性 SVM 算法替換成高　　參考圖 3.被選中測(cè)試的檢測(cè)器在(左側(cè))麻省理工學(xué)院和（右側(cè)）INRIA 數(shù)據(jù)庫表現(xiàn)出的性能。詳細(xì)內(nèi)容見論文中的表述。　　6.檢測(cè)流程與性能分析

31、　　現(xiàn)在我們給出 HOG檢測(cè)流程并系統(tǒng)地分析一下不同的判斷對(duì)檢測(cè)性能的影響。在這一章中我們所得到的結(jié)果都是由有著如下特性的默認(rèn)檢測(cè)器得出的，具體如下所示：RGB 色度空間且沒有伽馬校正；非平滑的[?1, 0, 1]梯度濾波器；線性梯度在 0?–180?區(qū)間內(nèi)向九個(gè)方向的投影；16×16 像素塊以及 8×8 的像素胞元；高斯 σ= 8 像素空間窗口；L2-Hys（Lowe 式修正二級(jí)標(biāo)準(zhǔn)）塊歸

32、一化；8 像素的塊滑動(dòng)增量（因此每個(gè)胞元會(huì)被掃描 4 次）；64×128 檢測(cè)窗口；線性 SVM 分類器。　　參考圖 4 顯示了不同的 HOG 特征參數(shù)對(duì)整體檢測(cè)性能的影響。這些在下面的章節(jié)中將被仔細(xì)研究。主要的結(jié)論是，要想達(dá)到好的檢測(cè)效果，一個(gè)檢測(cè)器必須用到適當(dāng)?shù)膶?dǎo)數(shù)級(jí)（基本上無平滑處理），更多方向區(qū)間，以及大小合適、歸一化徹底并且重疊的描述塊。<

33、;p>　　參考圖 4.詳細(xì)內(nèi)容見論文中的表述。　　6.1 伽馬/歸一化　　我們選擇性地運(yùn)用伽馬均衡評(píng)估了輸入像素的幾個(gè)特征，包括灰度級(jí)，RGB 和 LAB 色度空間。或許是因?yàn)楹竺娴拿枋鲎託w一化達(dá)到了類似的效果，這些歸一化對(duì)檢測(cè)性能的影響不大。如果可以的話，我們也會(huì)使用色度信息。RGB 和 LAB 色度空間對(duì)檢測(cè)性能的影響類似，但是真正的阻礙在

34、于灰度級(jí)，它使得檢測(cè)性能在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上下降了 1.5%。對(duì)每個(gè)顏色通道進(jìn)行平方根的伽馬壓縮會(huì)使檢測(cè)性能有小幅的提高（窗口假陽性測(cè)試中在10-4數(shù)量級(jí)上提高1%），但使用對(duì)數(shù)壓縮，壓縮幅度就太大了，會(huì)使檢測(cè)性能惡化，在10-4數(shù)量級(jí)的窗口假陽性測(cè)試中下降2%。　　6.2 梯度計(jì)算　　檢測(cè)器

35、性能的好壞對(duì)梯度計(jì)算的方式十分敏感，然而最簡(jiǎn)單的方式卻是最有效的。在梯度計(jì)算時(shí)，我們對(duì)使用高斯平滑然后再加以離散導(dǎo)數(shù)掩膜的效果進(jìn)行了測(cè)試。我們嘗試了若干平滑尺度，包括 σ=0（即不進(jìn)行高斯平滑）。我們還對(duì) 多種掩膜進(jìn)行了實(shí)驗(yàn)，包括不同的一維單點(diǎn)導(dǎo)數(shù)掩膜（無中心點(diǎn)的[?1, 1]、有中心點(diǎn)的[?1, 0, 1]和三次校正的[1,?8, 0, 8,?1]）、3×3 的 Sobel 掩膜和 2×2 的對(duì)角掩膜（最密

36、集的二維導(dǎo)數(shù)掩膜）。使用面積更大的掩膜似乎總會(huì)降低檢測(cè)性能，而對(duì)高斯導(dǎo)數(shù)而言，進(jìn)行平滑會(huì)顯著地降低檢測(cè)性能，σ 的值從 0 上升到 2，窗口假陽性測(cè)試中檢測(cè)率會(huì)在 10-4 數(shù)量級(jí)上從 89%下降到 80%。當(dāng) σ=0 時(shí)，一維三次校正五次濾波掩膜在性能上會(huì)比掩膜為[?1, 0, 1]的窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上差 1%，然而 2×2 的對(duì)角掩膜會(huì)差 1.5%。使用無中心點(diǎn)的導(dǎo)數(shù)掩膜[?1, 1] 同樣會(huì)降低

37、檢測(cè)性能（窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上下降 1.5%），這大概是由方向信息估值受到基于不同中心得直角坐標(biāo)濾波器的影響所造成的。　　對(duì)于彩色圖像，我們會(huì)對(duì)每一個(gè)顏色通道計(jì)算各自的梯度，并且取其中幅值最大的為像素的梯度向量。　　6.3 方向區(qū)間　　接下來的是基本為非

38、線性的描述子。計(jì)算每個(gè)像素對(duì)基于以自身為中心的方向梯度元素的邊緣方向直方圖通道的加權(quán)投影，并且將這些投影累積到我們叫做胞元的局部空間區(qū)域中的方向區(qū)間。胞元可以是長方形的或是環(huán)形的（對(duì)數(shù)級(jí)區(qū) 域）。方向區(qū)間在 0?–180?（“無符號(hào)”梯度）或是 0?–360?（“有符號(hào)”梯度）之間均勻分布。為了減少混疊，我們對(duì)每個(gè)投影在方向和位置上都進(jìn)行了鄰近區(qū)間的雙線性插值。這些投影是像素梯度幅值的函數(shù)，無論是幅值本身，還是它的平方、它的平

39、方根或是一種修正的幅值都代表了在像素邊緣的軟存在/缺失。在實(shí)際應(yīng) 用中，使用幅值本身能夠達(dá)到最好的效果。而取它的平方根會(huì)使檢測(cè)性能稍微降低，使用二進(jìn)制邊緣信息投影則會(huì)大大降低檢測(cè)性能（窗口假陽性測(cè)試中在10-4 數(shù)量級(jí)上下降 5%）。　　精確的方向編碼對(duì)于好的檢測(cè)性能是必不可少的，而（見下文）空間分割就可以相當(dāng)粗糙了。如參考圖 4（b）所示，增加方向區(qū)間的數(shù)量直到 9 個(gè)都能顯</p&

40、gt;　　著地提高檢測(cè)性能，但是再增加的話效果就不明顯。這是對(duì)于位于 0?–180?的方向區(qū)間而言，也就是說梯度的“符號(hào)”忽略不計(jì)。即使方向區(qū)間的數(shù)量也加倍以保持原有的方向分辨率，有符號(hào)梯度（方向區(qū)間位于 0?–360?，如最原始的 SIFT 描述子）還是會(huì)降低檢測(cè)性能。對(duì)于人類而言，穿著和背景顏色的多種多樣可能會(huì)使得符號(hào)的標(biāo)識(shí)不能提供任何有用信息。然而，不要忘記有符號(hào)的信息確實(shí)在其它的實(shí)物檢測(cè)中大幅提高了

41、其檢測(cè)性能，如汽車、摩托車檢測(cè)。　　6.4 歸一化和描述塊　　由于局部光照和前景背景對(duì)比的差異，梯度幅值分布在一個(gè)很寬的范圍之內(nèi)，因此有效的局部對(duì)比度歸一化對(duì)好的檢測(cè)性能就顯得尤為重要。我們?cè)u(píng)估了許多不同的歸一化方案。大多數(shù)方案都是將胞元分組到更大的區(qū)域塊中并將每個(gè) 塊分別進(jìn)行對(duì)比歸一化。然后，在檢測(cè)窗口中的所有圖像塊返回的歸一化胞元的所有部分組成

42、的向量就是最終的描述子。事實(shí)上，我們通常會(huì)使各塊重疊，這樣就能使每個(gè)標(biāo)量的胞元返回值同時(shí)對(duì)最終的描述子中的幾個(gè)部分產(chǎn)生作用，其中不同的塊都進(jìn)行了歸一化。這似乎是多此一舉，但是良好的歸一化非常關(guān)鍵，并且包括重疊在內(nèi)的措施顯著地提高了檢測(cè)性能。參考圖 4（d）表明，由于我們加入了重疊，從無（步長 16）到 16 倍區(qū)域/4 倍線性覆蓋（步長 4），使得檢測(cè)性能在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上上升了 4%。

43、;　　我們?cè)u(píng)估了兩類幾何形狀的塊，正方形或長方形的塊被分割成正方形或長方形空間胞元的網(wǎng)格，而環(huán)形的塊則被分割成對(duì)數(shù)極的形態(tài)。我們將這兩種不同的塊分別叫做 R-HOG 和 C-HOG（代表方形和環(huán)形 HOG）。　　R-HOG: R-HOG 與 SIFT 描述子（見參考文獻(xiàn) 12）有很多相同點(diǎn)，但用法卻有很多差異。它們經(jīng)過在密集網(wǎng)格中以單一的大小且沒有定向?qū)R的計(jì)算，并作

44、為與檢測(cè)窗口相關(guān)的隱式編碼空間的一個(gè)更大的編碼向量的一部分，而 SIFT 描述子則是在一個(gè)稀疏的關(guān)鍵點(diǎn)集中計(jì)算，通過旋轉(zhuǎn)使其方向?qū)R，然后單獨(dú)使用。 SIFT描述子適合稀疏的寬基線匹配，而R-HOG.描述子則適合致密健壯的空間形態(tài)編碼。其它類似的描述子包括 Freeman 和 Roth 在參考文獻(xiàn) 4 中提到的邊緣方向直方圖。我們通常使用方形的 R-HOG.描述子，即由 η×η 像素胞元組成的 ?×? 網(wǎng)格，

45、而每個(gè)網(wǎng)格中有 β 個(gè)方向區(qū)間，在這里 ?,η,β 都是描述子的參數(shù)。　　參考圖 5 繪制了窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上胞元大小以及胞元構(gòu)成的塊的大小與漏檢率的關(guān)系。對(duì)于行人檢測(cè)而言，6×6 像素組成的胞元以及 3×3 這樣的胞元組成的塊表現(xiàn)出來的檢測(cè)性能最好，在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上漏檢率為 10.4%。我們的標(biāo)準(zhǔn)是 8×8

46、像素組成的胞元以及 2×2 這樣的胞元組成的塊，它表現(xiàn)出的性能與前者非常接近，排在第二位。事實(shí)上，不論塊大小如何，胞元寬度為 6 到 8 個(gè)像素時(shí)表現(xiàn)出的性能最佳——這與人類的肢體大概就在圖像中占 6—8 個(gè)像素是一個(gè)有趣的巧合。2×2 和 3×3 個(gè)胞元組成的塊效果最好。隨著塊變得更大，局部圖像信息會(huì)相應(yīng)地被弱化，而塊太　　小時(shí)（1×1胞元組成的

47、塊，也就是只在方向上進(jìn)行歸一化），重要的空間信息就得不到運(yùn)用。　　參考圖 5.不同胞元和塊大小在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上的漏檢率。滑塊（塊重疊）固定為塊大小的一半。3×3 個(gè)由 6×6 個(gè)像素組成的胞元構(gòu)成的塊的檢測(cè)性能最佳，漏檢率為 10.4%。　　正如參考文獻(xiàn) 12 中所說，在累積計(jì)算方向在胞元上的投影之前，通

48、過使用　　高斯空間窗口濾波減小在塊邊緣的像素的權(quán)重是有必要的。這樣做在使用 σ 值為塊大小一半的高斯濾波時(shí)能夠使檢測(cè)性能在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上提高 1%。　　我們也在整個(gè)描述子之內(nèi)嘗試了多種大小的塊和胞元組合。這能稍稍提高檢測(cè)性能（在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上大約提高 3%），其代價(jià)是會(huì)大大增加描述子的大小。<

49、/p>　　除了方形的 R-HOG 塊，我們也測(cè)試了垂直的（2×1 胞元）和水平的（1×2 胞元）的塊以及一個(gè)既有水平部分也有垂直部分的描述子。垂直的和垂直加水平的塊比只有水平的在性能上明顯要好得多，但不如 2×2 或 3×3 個(gè)胞元組成的塊（窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上差 1%）。　　C-HOG：我們的環(huán)形塊狀描述子

50、（C-HOG）容易讓人聯(lián)想到 Shape Contexts，但其中最重要的區(qū)別在于，每個(gè)胞元空間都包含了一堆有梯度權(quán)重的方向胞元而不是單一的與方向無關(guān)的邊緣信息計(jì)數(shù)。對(duì)數(shù)極網(wǎng)絡(luò)原本是基于這樣一個(gè)思想，那就是它可以將鄰近結(jié)構(gòu)的精確編碼與邊遠(yuǎn)區(qū)域的粗略編碼相結(jié)合，而事實(shí)上從從視覺領(lǐng)域轉(zhuǎn)換到靈長類動(dòng)物的大腦中的影像也是對(duì)數(shù)變換（見參考文獻(xiàn)21）。然而，小型且徑向區(qū)間很少的描述子表現(xiàn)出的性能最佳，因此在實(shí)際應(yīng)用中幾乎沒有不均勻參數(shù)或

51、是相關(guān)背景。我們也可以把C-HOG描述子簡(jiǎn)單地比作一種先進(jìn)的中心環(huán)繞編碼方式。　　我們?cè)u(píng)估了兩種不同幾何形狀的C-HOG，其中之一是單一的環(huán)形中心胞元（與參考文獻(xiàn) 14 中提到的 GLOH 相似），另外一個(gè)是中心胞元被劃分成幾個(gè)類似 shape contexts 中的角度區(qū)域。由于環(huán)形中心胞元的 C-HOG 比中心分割的 C-HOG 在實(shí)際應(yīng)用中表現(xiàn)相同性能時(shí)所需的空間胞元更少，因此我們只對(duì)

52、前者進(jìn)行實(shí)驗(yàn)并得出結(jié)果。技術(shù)報(bào)告將提供進(jìn)一步的細(xì)節(jié)。這種C-HOG描述子總體有四個(gè)參數(shù)：角度和徑向區(qū)間的數(shù)量；中心區(qū)間像素的半徑；其它區(qū)間半徑的補(bǔ) 償值。良好的檢測(cè)性能需要至少兩個(gè)徑向區(qū)間（一個(gè)中心和一個(gè)周邊）和四個(gè)角度區(qū)間（四等分）。包含額外的徑向區(qū)間不會(huì)使檢測(cè)性能有太大的改變，而增加角度區(qū)間則會(huì)使檢測(cè)性能下降（區(qū)間數(shù)目從 4 增長到 12，在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上下降 1.3%）。4 像素是中心區(qū)間最佳的半徑大小

53、，但 3 個(gè)或是 5個(gè)得到的檢測(cè)效果區(qū)別不大。將補(bǔ)償參數(shù)從 2 提高到 3 基本上不會(huì)改變檢測(cè)性能。這些參數(shù)一經(jīng)確定，對(duì)其進(jìn)行高斯空間加權(quán)或是逆加權(quán)都不會(huì)改變檢測(cè)性能，但是把二者結(jié)合起來就會(huì)讓性能稍微降低。得到這些值需要精確的方向采樣。Shap　　塊歸一化方案：我們對(duì)以上每種幾何形狀的HOG都測(cè)試了四種不同的歸一優(yōu)化方案。令 v 為未歸一化的描述子向量，||v||k 為它的 k-范數(shù)（k=1,

54、2），　　而ε為一個(gè)值為小的常數(shù)。具體方案是：　?。╝）L2-范數(shù)；　?。?lt;/b>　?。╞）L2-Hys，取 L2-范數(shù)之后再進(jìn)行裁剪（將 v 的最大值限制在 0.2 之內(nèi)）并且如參考文獻(xiàn) 12中所說進(jìn)行

55、反歸一化；　　（c）L1-范數(shù)，；　　還有（d）L1-sqrt，取L1-范數(shù)之后再取平方根，　　這相當(dāng)于將描述子向量用作率分布并且利用他們之間的 Bhattacharya 距離。參考圖 4（c）顯示，L2-Hys, L2- 范數(shù)和 L1-sqrt 表現(xiàn)出的性能一樣好，而單一的 L1-范數(shù)會(huì)使檢測(cè)性能在窗口假陽性

56、測(cè)試中在 10-4 數(shù)量級(jí)上下降 5%，而完全不進(jìn)行歸一化則會(huì)使其下降 27%。由于我們對(duì)包括空的部分的所有描述子進(jìn)行密集地估值，因此需要一個(gè)規(guī)則化因子ε，但檢測(cè)結(jié)果卻在一個(gè)大的區(qū)間內(nèi)對(duì)ε的值十分敏感。　　中心周邊歸一化：我們同樣也評(píng)估了另一種中心周邊式的胞元?dú)w一化方案，其中圖像被劃分為一系列平鋪的胞元組成的網(wǎng)格，而對(duì)每個(gè)胞元而言，它的總權(quán) 重和周圍區(qū)域（統(tǒng)計(jì)了方向信息并集中使用了高斯加權(quán)濾

57、波）被用來對(duì)該胞元進(jìn) 行歸一化。然而，正如參考圖4（c）（“窗口規(guī)范”）所示，這種方法與對(duì)應(yīng)的基于塊的方案相比降低了檢測(cè)性能（在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上下降 2%，濾波時(shí)胞元寬度σ=1）。其中的一個(gè)原因是塊之間不再重疊，這樣每個(gè)胞元在最終的描述子里僅僅編碼計(jì)算一次?；诓煌瑸V波尺度σ的胞元中加入幾種歸一化并不能明顯地改變檢測(cè)性能，因此，在這里似乎是幾處濾波區(qū)域的存在和相關(guān)胞元中空間區(qū)域的偏移顯得更為重要，而不是濾

58、波的尺度。　　為了解釋清楚這一點(diǎn)，我們考慮使用了包含重疊塊的 R-HOG 檢測(cè)器。根據(jù) 線性 SVM 訓(xùn)練所得的系數(shù)來賦予每個(gè)塊中的每個(gè)胞元在最終的判決中應(yīng)占的權(quán) 重。仔細(xì)分析參考圖 6（b，f）就能得出，通常那些包含人體輪廓（特別是頭，肩和腳）的才是最重要的胞元，歸一化時(shí)與輪廓周圍的胞元相關(guān)。換句話說—除了在我們的訓(xùn)練集中常見的復(fù)雜混亂的背景—檢測(cè)器主用關(guān)注的是輪廓線條與背景的對(duì)比，而不

59、是內(nèi)部邊緣信息或輪廓線條與前景的對(duì)比。服裝圖案與行人姿　　態(tài)的千變?nèi)f化可能會(huì)使內(nèi)部區(qū)域信息不能用作可靠的檢測(cè)依據(jù)，而前景到輪廓的轉(zhuǎn)換同樣可能會(huì)受到平滑著色和陰影效果的混淆。相似的是，參考圖 6（c，g）證明了人體內(nèi)部的直方圖（尤其是垂直的）通常算作反面的檢測(cè)依據(jù)，這可能是因?yàn)樗陂L的垂線一定與垂直的頭部與腿部胞元相關(guān)的基礎(chǔ)之上減少了誤報(bào)。　　參考圖

60、 6.我們的 HOG 檢測(cè)器主要的檢測(cè)線索是輪廓線條（特別是頭部，肩膀和腳）。最有用是以正好在輪廓外圍的圖片背景為中心的塊。參考圖 a：訓(xùn)練樣本的平均梯度圖像。參考圖 b：每個(gè)“像素”顯示在塊中的最大正 SVM 權(quán)重。參考圖 c：與上圖對(duì)應(yīng)的負(fù) SVM 權(quán)重。參考圖 d：一張測(cè)試圖像。參考圖 e：由這張圖像計(jì)算而來的 R-HOG 描述子。參考圖（f，g）：該 R-HOG 分別在 SVM 中的正負(fù)權(quán)重。<

61、;p>　　6.5 檢測(cè)窗口與背景　　我們 64×128 的檢測(cè)窗口包含了在人四周邊緣的約16 個(gè)像素。參考圖（e）　　表明這一邊界提供了大量有助于檢測(cè)的信息。將這個(gè)邊界從16 個(gè)像素降至 8 個(gè)像素（即 48×112 的檢測(cè)窗口）會(huì)使檢測(cè)性能在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上下降下降 4%。保持 64×128 的

62、檢測(cè)窗口大小不變，增大窗口中人的大小（同時(shí)減少邊界像素個(gè)數(shù)）會(huì)導(dǎo)致類似的檢測(cè)性能下降，即便人的分辨率確實(shí)是上升了。　　分類器　　默認(rèn)情況下，我們使用一個(gè)軟（C=0.01）線性 SVM 和參考文獻(xiàn) 10 中的 SVMLight（略作修改以減少在處理高密度描述子向量問題時(shí)內(nèi)存的占用率）來訓(xùn)練。使用高斯核心 SVM

63、能夠使檢測(cè)性能在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上提高3%，其代價(jià)是檢測(cè)時(shí)間會(huì)大大增長。　　分析　　總的來說，在這項(xiàng)工作中有幾個(gè)值得注意的發(fā)現(xiàn)。HOG 的檢測(cè)性能大大強(qiáng) 于小波，并且在計(jì)算梯度之前任何相當(dāng)程度的平滑都會(huì)損害 HOG 的檢測(cè)效果，這些事實(shí)都強(qiáng)調(diào)了大部分的圖像信息都來源于合適尺度的陡峭邊緣，而將其

64、模糊化以希望達(dá)到減少對(duì)空間位置的敏感性的做法是不可取的。相反，應(yīng)該在最適合的尺度下在現(xiàn)有的層次計(jì)算梯度，修正或是利用方向投影的方法，而之后才能進(jìn) 行空間模糊。鑒于此，相對(duì)粗糙的空間量化就足夠了（胞元中 6 到 8 個(gè)像素的寬/一段肢體的寬度）。另一方面，至少是對(duì)于行人檢測(cè)而言，它對(duì)于方向信息的采　　樣更為精確，而小波和 shape contexts 在這方面就差遠(yuǎn)了。其次，徹底的局部對(duì)比度歸

65、一化對(duì)于好的檢測(cè)結(jié)果是必要的，而傳統(tǒng)的中心周邊式的方案則不是最好的選擇。要達(dá)到更好的效果，需要?dú)w一化與不同局域特征相關(guān)所有的元素（邊緣信息，胞元）數(shù)次，并且將這些結(jié)果當(dāng)作獨(dú)立的標(biāo)識(shí)。在我們標(biāo)準(zhǔn)的檢測(cè)器中，每個(gè) HOG 胞元在不同的歸一化中一共用到四次，而將這一“重復(fù)”的信息加入進(jìn)來能夠使檢測(cè)率在窗口假陽性測(cè)試中在 10-4 數(shù)量級(jí)上從 84%提高到 89%。　　7.結(jié)論&l

66、t;/b>　　我們已經(jīng)表明，在密集重疊的網(wǎng)格中，使用與參考文獻(xiàn) 12 中提到的 SIFT 描述子類似的局部歸一化方向梯度直方圖，在行人檢測(cè)方面效果甚佳，比參考文獻(xiàn) 17 中提到的最好的基于 Haar 小波特征的檢測(cè)器在假陽率上減少了超過一個(gè)數(shù)量級(jí)。我們研究了各種描述子參數(shù)對(duì)檢測(cè)性能的影響，總結(jié)得出，合適大小的梯度，精確的方向區(qū)間劃分，相對(duì)粗糙的空間區(qū)域劃分和在重疊的描述子塊中高質(zhì) 量的局

67、部對(duì)比度歸一化對(duì)于好的檢測(cè)性能來說都很重要。我們也創(chuàng)建了一個(gè)新的且更具挑戰(zhàn)性的行人數(shù)據(jù)庫，并將其公之于眾。　　未來的工作：雖然我們目前的線性 SVM 檢測(cè)器相當(dāng)高效—檢測(cè)一張 320×240 的圖片（4000 檢測(cè)窗口）用時(shí)不到一秒—但是仍有繼續(xù)優(yōu)化的空間，并能夠在未來加快檢測(cè)的速度，在開發(fā)從粗到精或是基于 HOG 描述子的拒絕鏈?zhǔn)綑z測(cè)器時(shí)派上用場(chǎng)。我們也研究了基于 HOG 描述子的

68、檢測(cè)器，它將塊匹配或是光學(xué)流動(dòng)區(qū)域有機(jī)地結(jié)合起來。最后，盡管現(xiàn)在的固定模板式檢測(cè)器在總體可見的行人檢測(cè)方面難以被超越，鑒于人類有高度的關(guān)節(jié)性，我們還是相信加入一個(gè)局部空間有更大不變性的基于部分的模型將會(huì)使檢測(cè)性能在更廣泛的領(lǐng)域得到提高。　　致謝　　這項(xiàng)工作得到了研究項(xiàng)目 ACEMEDIA 和 PASCAL 的幫助

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2005年--外文翻譯--基于方向梯度直方圖的行人檢測(cè)（譯文）

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

2005年--外文翻譯--基于方向梯度直方圖的行人檢測(cè)（譯文）

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載