人臉識別作為深度學習最具代表性的技術(shù)之一,近年來得到了飛速的發(fā)展,無論是在精度、速度和規(guī)模上都有了極大的提高。在取得如此巨大成功的同時,科學家們將目光轉(zhuǎn)向了一個尚未充分探索的領(lǐng)域——卡通人臉識別,即將卡通動畫作品中的人臉進行準確的檢測和識別。
隨著數(shù)字技術(shù)和新媒體技術(shù)的快速發(fā)展我們的生活中出現(xiàn)了越來越多的卡通化人物,它們不僅成為了孩子們認識世界的窗口,更提供了教學輔助和科研傳播的功能,甚至用于描述個人觀點甚至傳播社會思想。與標準的繪畫作品相比,卡通、漫畫、幽默作品以一種十分夸張的方式來表現(xiàn),并導致了人臉的大幅形變和特征轉(zhuǎn)移。對于卡通人臉的檢測在動畫行業(yè)中的需求也日漸增加,主要包括:通過圖像搜索引擎在網(wǎng)絡中搜索相似的卡通圖像;通過識別和語音合成幫助視覺障礙認識享受卡通電影的樂趣;同時還能作為內(nèi)容控制和審查軟件的一部分來對社交媒體的內(nèi)容進行處理。
為了實現(xiàn)這一目標,研究人員們利用了IIIT-CFW卡通數(shù)據(jù)集作為燃料,基于深度學習實現(xiàn)了卡通人臉檢測、識別工作,并超過了傳統(tǒng)的方法達到了優(yōu)秀的檢測效果。
這一數(shù)據(jù)集中包含了8928張帶標記的卡通人臉圖像,其中不僅包含了不同年齡、性別、情感的基本人臉數(shù)據(jù),同時還包括各個人種、人臉位置以及諷刺隱喻等高維度信息,其標注信息示例如下,包括了七個特征維度和包括角色名字的五個人臉位置維度信息:
Face Annotation
作者對于卡通人臉主要進行了三個方面的工作:人臉檢測、人臉識別和性別檢測,并在檢測的過程中對卡通人臉的關(guān)鍵點進行了識別和抽取。
對于人臉檢測,研究人員們主要使用了MTCNN(Multi-task Cascaded Convolutional Network)網(wǎng)絡,這一架構(gòu)包含三個主要的部分分別是通過圖像金字塔提出候選框的建議網(wǎng)絡P-Net、隨后是用于提煉優(yōu)化結(jié)果的精煉網(wǎng)絡R-Net,最后是用于生成最終人臉框和五個標志結(jié)果的輸出網(wǎng)絡O-Net。
對于人臉識別工作,研究人員們提出兩種方式,第一種是利用Inceptionv3+SVM來進行識別,首先利用Inception來高效抽取圖像特征,并在最后使用分類器來對最終2048維結(jié)果進行分類實現(xiàn)識別。
另一種方式利用了建議系統(tǒng)來構(gòu)建了標志抽取系統(tǒng),并基于多輸入多輸出的CNN分類器實現(xiàn)了人臉識別。首先將卡通圖像進行灰度和歸一化處理,隨后對卡通人臉圖像的15個特征點坐標進行抽取。在檢測過程中,使用了5層的神經(jīng)網(wǎng)絡對特征點進行檢測(利用真實的人臉進行了訓練,以提高人臉特征檢測能力)。最后這一結(jié)果和像素處理的結(jié)果同時送入到建議人臉識別架構(gòu)網(wǎng)絡中去,通過CNN的多輸入多輸出結(jié)果進行識別。
通過對于上述網(wǎng)絡的訓練后,得到了良好的檢測結(jié)果。在人臉檢測的表現(xiàn)上,作者同時和基于HOG特征及Harr特征的結(jié)果進行了比較,在真陽性、假陽性、假陰性的指標都超過了這些方法。
在卡通人臉關(guān)鍵點提取任務中也表現(xiàn)良好。
這一工作的主要貢獻在于利用MTCNN架構(gòu)實現(xiàn)了卡通人臉的檢測,并在多個指標上有了較大的提高,同時在卡通人臉識別任務上利用了預訓練的Inception架構(gòu)和SVM特征分類器實現(xiàn)了更高的效果。并提出了基于LeNet的多輸入多輸出HCNN架構(gòu)降低了top5的錯誤率。
值得一提的是,在卡通圖像領(lǐng)域還有很多的工作可以去填坑,包括卡通人臉識別、驗證、性別識別,照片到卡通圖像的相互轉(zhuǎn)換(類似風格遷移)、卡通人臉檢測、位置估計和關(guān)鍵點檢測、相關(guān)特性識別以及基于卡通圖像特征的搜索引擎。同時還包括通過照片轉(zhuǎn)化為一系列卡通表情的生成、草圖繪制和渲染,以及相應的逆問題。還有很多應用和點可以再卡通領(lǐng)域進行探索,甚至GANs和VAE也是一個不錯的選擇呢!
原文標題:人臉識別的新世界——卡通人臉檢測
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。