服務(wù)熱線：13728883399
wangyp@shangeai.com

諾丁漢大學(xué)提出使用GAN進(jìn)行「人臉識(shí)別」中的「人臉特征點(diǎn)定位」

時(shí)間：2018-05-18 14:17:45點(diǎn)擊：432次

原文來(lái)源:arXiv

作者:Adrian Bulat、Georgios Tzimiropoulos

「雷克世界」編譯:嗯~是阿童木呀、KABUDA、EVA

現(xiàn)如今,人臉識(shí)別在實(shí)際生活中有著越來(lái)越多的應(yīng)用?？墒?對(duì)于一些低分辨率的人臉圖像來(lái)說(shuō),如何對(duì)其中的人臉特征點(diǎn)進(jìn)行精確定位是一個(gè)挑戰(zhàn)。最近,英國(guó)諾丁漢大學(xué)計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)室的科學(xué)家們提出了一種Super-FAN,這是首個(gè)集成人臉超分辨率和特征點(diǎn)定位的端到端系統(tǒng)。能夠提高低分辨率人臉圖像的質(zhì)量,同時(shí)還能夠?qū)D像上的人臉特征點(diǎn)進(jìn)行精確定位。

本文提出了兩個(gè)具有挑戰(zhàn)性的任務(wù):提高低分辨率人臉圖像的質(zhì)量,并精確定位這些低分辨率圖像上的人臉特征點(diǎn)。為此,我們做出了以下5個(gè)貢獻(xiàn):

1. 我們提出了Super-FAN:第一個(gè)能夠同時(shí)解決這兩個(gè)任務(wù)的端到端系統(tǒng),即改善人臉?lè)直媛屎蜋z測(cè)人臉特征點(diǎn)。Super-FAN的新穎性在于:通過(guò)將一個(gè)人臉對(duì)齊(face alignment)的子網(wǎng)絡(luò)集成到熱圖回歸(heatmap regression)中,并優(yōu)化新的熱圖損失(heatmap loss),從而將結(jié)構(gòu)信息整合到基于GAN的超分辨率算法(GAN-based super-resolution algorithm)中。

2. 我們通過(guò)在正面圖像(如先前的研究)和整體人臉姿勢(shì)光譜上,以及在合成低分辨率圖像(如先前的研究)和現(xiàn)實(shí)世界的圖像上,都顯示出良好的結(jié)果,從而說(shuō)明了訓(xùn)練這兩個(gè)網(wǎng)絡(luò)的好處。

3. 我們通過(guò)提出一種新的基于殘差的架構(gòu),改進(jìn)了人臉超分辨率最先進(jìn)的技術(shù)。

4. 定量地看,我們大大提高了人臉超分辨率和人臉對(duì)齊的最先進(jìn)技術(shù)。

5. 定性地看,我們首次在現(xiàn)實(shí)世界的低分辨率圖像上得到良好的結(jié)果,如圖1所示。

圖1:我們的系統(tǒng)在來(lái)自WiderFace的真實(shí)低分辨率人臉上生成的一些視覺(jué)效果的樣本圖片。

本文的目的是改進(jìn)非常低分辨率的人臉圖像的質(zhì)量和理解。這在許多應(yīng)用程序中很重要,比如人臉編輯監(jiān)視/安全。在質(zhì)量方面,我們的目標(biāo)是提高分辨率,并恢復(fù)現(xiàn)實(shí)世界低分辨率人臉圖像的細(xì)節(jié),如圖1的第一行所示;該任務(wù)也被稱為“人臉超分辨率(face super-resolution)”(當(dāng)輸入的分辨率太小時(shí),該任務(wù)有時(shí)被稱為“人臉幻覺(jué)(face hallucination)”)。

在理解方面,我們希望通過(guò)使用語(yǔ)義(semantic meaning)定位一組預(yù)定義的人臉特征點(diǎn)(如鼻尖、眼角),從而提取中高級(jí)的人臉信息;這個(gè)任務(wù)也被稱為“人臉對(duì)齊(face alignment)”。

試圖同時(shí)解決這兩項(xiàng)任務(wù)實(shí)際上是一個(gè)“先有雞還是先有蛋”的問(wèn)題:一方面,能夠檢測(cè)到人臉特征點(diǎn)已經(jīng)被證明有利于人臉超分辨率;然而,如何在任意姿勢(shì)的低分辨率人臉中完成它仍是一個(gè)尚待解決的問(wèn)題。另一方面,如果能夠在整體人臉姿勢(shì)光譜上有效地解決低質(zhì)量和低分辨率的人臉,那么人臉特征點(diǎn)就可以被精確定位。

因?yàn)楹茈y在非常低分辨率的人臉中檢測(cè)特征點(diǎn)(如在本研究中所注意和驗(yàn)證的那樣),當(dāng)人臉特征點(diǎn)定位不良時(shí),基于此想法的先前的超分辨率方法會(huì)產(chǎn)生帶有偽像(artifact)的模糊圖像。

圖2:本文所提出的Super-FAN架構(gòu)包含三個(gè)相連的網(wǎng)絡(luò):第一個(gè)是剛剛提出的超分辨率網(wǎng)絡(luò)。第二個(gè)網(wǎng)絡(luò)是基于WGAN的鑒別器,用于區(qū)分超分辨率和原始HR圖像。第三個(gè)網(wǎng)絡(luò)是FAN,這是一個(gè)人臉對(duì)齊網(wǎng)絡(luò),用于定位超分辨率人臉圖像上的面部特征點(diǎn),并通過(guò)新引入的熱圖失真來(lái)提高超分辨率。

我們的主要貢獻(xiàn)是證明即使對(duì)于完全任意的姿勢(shì)(例如頭像圖像,參見(jiàn)圖1和圖5),實(shí)際上也可以共同執(zhí)行人臉特征點(diǎn)定位和超分辨率,

總而言之,我們的貢獻(xiàn)是:

1. 我們提出了Super-FAN:第一個(gè)能夠同時(shí)解決人臉超分辨率和人臉對(duì)齊的端到端系統(tǒng)。它通過(guò)熱圖回歸(heatmap regression)將人臉特征點(diǎn)定位的子網(wǎng)絡(luò)集成到基于GAN的超分辨率網(wǎng)絡(luò)中,并結(jié)合了新的熱圖損失(heatmap loss)。參見(jiàn)圖2。

2. 我們展示了在任意人臉姿勢(shì)的合成生成和現(xiàn)實(shí)世界低分辨率人臉上共同訓(xùn)練這兩個(gè)網(wǎng)絡(luò)的好處。

3. 我們還提出了一種改進(jìn)的基于殘差的超分辨率架構(gòu)。

4. 定量地看,我們首次報(bào)告了LS3D-W數(shù)據(jù)集上整體人臉姿勢(shì)光譜的結(jié)果,并且在超分辨率和人臉對(duì)齊方面顯示出了巨大的進(jìn)步。

5. 定性地看,我們首次在從WiderFace數(shù)據(jù)集獲取的現(xiàn)實(shí)世界低分辨率人臉圖像上得到良好的視覺(jué)效果(參見(jiàn)圖1和圖5)。

接下來(lái),我們來(lái)介紹一下在圖像和人臉超分辨率以及人臉特征點(diǎn)定位(facial landmark localization)方面的相關(guān)研究。

圖3:本文所提出的超分辨率架構(gòu)(左)與《使用生成式對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)的照片逼真的單一圖像超分辨率》中描述的架構(gòu)(右)之間的比較。

圖像超分辨率

早期使用CNN進(jìn)行的超分辨率嘗試使用的是標(biāo)準(zhǔn)Lp損失進(jìn)行訓(xùn)練的,結(jié)果導(dǎo)致模糊的超分辨圖像。為了緩解這一問(wèn)題,論文《實(shí)時(shí)風(fēng)格遷移和超分辨率的感知損失》的作者提出了一個(gè)關(guān)于特征映射的MSE,提出了感知損失(perceptual loss),而不是在像素上(超分辨率和參考真實(shí)HR圖像之間)使用MSE。值得注意的是,我們也在我們的方法中使用了感知損失。

最近在《使用生成式對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)的照片逼真的單一圖像超分辨率》中,作者提出了一種基于GAN的方法,該方法使用鑒別器在超分辨率和原始HR圖像以及感知損失之間進(jìn)行區(qū)分。在《Enhancenet:通過(guò)自動(dòng)紋理合成的單一圖像超分辨率》中,作者提出了一種基于補(bǔ)丁的紋理?yè)p失,以改進(jìn)重構(gòu)質(zhì)量。

值得注意的是,前面所提到的所有圖像超分辨率方法都可以應(yīng)用于所有類型的圖像,因此不包含特定于人臉的信息,像在我們的研究中所提出的那樣。此外,在大多數(shù)情況下,其目標(biāo)是對(duì)于給定的圖像,生成具有良好分辨率(通常為128×128)的高保真圖像,而面部超分辨率方法通常在具有非常低分辨率(16×16或32×32)的面部上給出報(bào)告結(jié)果。

從上述所有方法中,我們的研究與《實(shí)時(shí)風(fēng)格遷移和超分辨率的感知損失》和《使用生成式對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)的照片逼真的單一圖像超分辨率》更為密切相關(guān)。特別是,我們的貢獻(xiàn)之一是描述一種改進(jìn)的基于GAN的超分辨率體系結(jié)構(gòu),我們將其用作一個(gè)強(qiáng)大的基線,在其基礎(chǔ)上構(gòu)建了我們的集成人臉超分辨率和對(duì)齊網(wǎng)絡(luò)(alignment network)。

人臉超分辨率

最近,在《通過(guò)鑒別式生成式網(wǎng)絡(luò)實(shí)現(xiàn)的極端超分辨人臉圖像》的研究中,采用基于GAN的方法來(lái)分辨具有非常低分辨率的人臉圖像。該方法顯示,對(duì)于來(lái)自CelebA數(shù)據(jù)集的正面和預(yù)先對(duì)齊的人臉運(yùn)行結(jié)果良好。

在《通過(guò)變革性的鑒別式自編碼器得到極其低分辨率的未對(duì)齊和含噪聲的人臉圖像》中,作者提出了一個(gè)兩步解碼—編碼器—解碼器的架構(gòu),它包含一個(gè)空間轉(zhuǎn)換網(wǎng)絡(luò)以撤銷轉(zhuǎn)換、縮放和旋轉(zhuǎn)失準(zhǔn)(rotation misalignments)。

他們的方法在來(lái)自CelebA的正面數(shù)據(jù)集中的預(yù)先對(duì)齊的、合成生成的LR圖像上進(jìn)行了測(cè)試。值得注意的是,我們的網(wǎng)絡(luò)并不試圖撤銷失準(zhǔn),而是簡(jiǎn)單地學(xué)會(huì)如何進(jìn)行超分辨,并同時(shí)通過(guò)集成一個(gè)特征點(diǎn)定位子網(wǎng)絡(luò)解決人臉結(jié)構(gòu)問(wèn)題。

圖4:LS3D-W中的視覺(jué)效果

與我們的方法最相似的研究是,以交替的方式執(zhí)行人臉超分辨率和密集的人臉對(duì)應(yīng)。他們的算法在PubFig和Helen的正面人臉圖像上進(jìn)行了測(cè)試,而在真實(shí)圖像(總共4張)上的測(cè)試結(jié)果少有成功。

《用于人臉幻覺(jué)的的深度級(jí)聯(lián)網(wǎng)絡(luò)》與我們研究工作的主要區(qū)別在于,密集對(duì)應(yīng)算法(dense correspondence algorithm)不是基于神經(jīng)網(wǎng)絡(luò),而是基于級(jí)聯(lián)回歸,是從超分辨率網(wǎng)絡(luò)中進(jìn)行分離式預(yù)學(xué)習(xí)的,并保持不變。

同樣地,《用于人臉幻覺(jué)的的深度級(jí)聯(lián)網(wǎng)絡(luò)》研究也面臨著同樣的問(wèn)題,即必須檢測(cè)模糊人臉上的特征標(biāo)志,這在算法的第一次迭代中尤為明顯。相反,我們建議以端到端的方式聯(lián)合學(xué)習(xí)超分辨率和面部特征點(diǎn)定位,并僅用單次對(duì)焦來(lái)完成圖像的超分辨和人臉特征點(diǎn)的定位。如圖2所示,正像我們所展示的那樣,這會(huì)導(dǎo)致性能的大幅提升,并在整個(gè)面部姿勢(shì)譜中生成高保真度圖像。

圖5:由我們的系統(tǒng)、SR-GAN和CBN在來(lái)自WiderFace的真實(shí)低分辨率人臉上所產(chǎn)生的結(jié)果。

值得注意的是,我們的研究成果超越了現(xiàn)有的技術(shù),并且通過(guò)定量和定性兩種方式,對(duì)超分辨率和人臉特征點(diǎn)定位進(jìn)行了嚴(yán)格評(píng)估。在此之前,人們主要利用正面的數(shù)據(jù)集(例如:CelebA、Helen、LFW和BioID)得出實(shí)驗(yàn)結(jié)論,與之相反,我們?cè)趯?shí)驗(yàn)中所使用的低分辨率圖像是通過(guò)新創(chuàng)建的LS3D-W平衡數(shù)據(jù)集生成的,其中每個(gè)面部姿勢(shì)都對(duì)應(yīng)偶數(shù)張人臉圖像。

我們對(duì)取自WiderFace數(shù)據(jù)集的200張真實(shí)低分辨率圖像進(jìn)行了定性分析,并得出了相應(yīng)結(jié)論。據(jù)我們所知,這是利用真實(shí)圖像對(duì)人臉超分辨率算法進(jìn)行的一次最全面的評(píng)估。

人臉對(duì)齊

近期,一項(xiàng)有關(guān)人臉對(duì)齊的評(píng)估表明,當(dāng)分辨率降至30像素以下時(shí),采用標(biāo)準(zhǔn)人臉?lè)直媛?198×192)訓(xùn)練的中、大型姿勢(shì)網(wǎng)絡(luò)的最優(yōu)性能分別下降超過(guò)15%和30%。這一評(píng)估結(jié)果是我們開展此次研究的主要目標(biāo)之一。

由于我們的目標(biāo)不是提出一種新的人臉對(duì)齊架構(gòu),因此我們采用人臉對(duì)齊網(wǎng)絡(luò)(Face Alignment Network,FAN),該網(wǎng)絡(luò)由沙漏網(wǎng)絡(luò)(Hourglass network)與殘差塊(residual block)構(gòu)建而成。如圖所示,FAN對(duì)任意面部姿勢(shì)都能夠表現(xiàn)出優(yōu)異的性能,并獲得清晰的圖像。

正如我們?cè)谖闹兴故镜哪菢?一個(gè)被專門訓(xùn)練并用于將低分辨率圖像中的特征點(diǎn)進(jìn)行定位的FAN,性能表現(xiàn)欠佳。我們的一項(xiàng)貢獻(xiàn)就是表明,當(dāng)FAN進(jìn)行集成并與超分辨率網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練時(shí),FAN可以以高精確度定位低分辨率圖像中的面部特征點(diǎn)。

我們提出了Super-FAN:這是首個(gè)集成人臉超分辨率和特征點(diǎn)定位的端到端系統(tǒng)。我們通過(guò)集成子網(wǎng)絡(luò)進(jìn)行人臉對(duì)齊,并對(duì)新的熱圖損失進(jìn)行優(yōu)化,從而將面部結(jié)構(gòu)信息整合至超分辨率體系結(jié)構(gòu)中。我們展示了最先進(jìn)的人臉超分辨率和全臉姿勢(shì)對(duì)齊。不僅如此,我們還首次在現(xiàn)實(shí)世界中的低分辨率人臉圖像上顯示出了良好的效果。

原文鏈接:https://arxiv.org/pdf/1712.02765.pdf

來(lái)源：人工智能學(xué)家

標(biāo)簽:

打印