作者 | 汪彪
人臉識(shí)別技術(shù)不但吸引了Google、Facebook、阿里、騰訊、百度等國內(nèi)外互聯(lián)網(wǎng)巨頭的大量研發(fā)投入,也催生了Face++、商湯科技、Linkface、中科云從、依圖等一大波明星創(chuàng)業(yè)公司,在視頻監(jiān)控、刑事偵破、互聯(lián)網(wǎng)金融身份核驗(yàn)、自助通關(guān)系統(tǒng)等方向創(chuàng)造了諸多成功應(yīng)用案例。本文試圖梳理人臉識(shí)別技術(shù)發(fā)展,并根據(jù)作者在相關(guān)領(lǐng)域的實(shí)踐給出一些實(shí)用方案設(shè)計(jì),期待能對(duì)感興趣的讀者有所裨益。
概述
通俗地講,任何一個(gè)的機(jī)器學(xué)習(xí)問題都可以等價(jià)于一個(gè)尋找合適變換函數(shù)的問題。例如語音識(shí)別,就是在求取合適的變換函數(shù),將輸入的一維時(shí)序語音信號(hào)變換到語義空間;而近來引發(fā)全民關(guān)注的圍棋人工智能AlphaGo則是將輸入的二維布局圖像變換到?jīng)Q策空間以決定下一步的最優(yōu)走法;相應(yīng)的,人臉識(shí)別也是在求取合適的變換函數(shù),將輸入的二維人臉圖像變換到特征空間,從而唯一確定對(duì)應(yīng)人的身份。
一直以來,人們都認(rèn)為圍棋的難度要遠(yuǎn)大于人臉識(shí)別,因此,當(dāng)AlphaGo以絕對(duì)優(yōu)勢(shì)輕易打敗世界冠軍李世乭九段和柯潔九段時(shí),人們更驚嘆于人工智能的強(qiáng)大。實(shí)際上,這一結(jié)論只是人們的基于“常識(shí)”的誤解,因?yàn)閺拇蠖鄶?shù)人的切身體驗(yàn)來講,即使經(jīng)過嚴(yán)格訓(xùn)練,打敗圍棋世界冠軍的幾率也是微乎其微;相反,絕大多數(shù)普通人,即便未經(jīng)過嚴(yán)格訓(xùn)練,也能輕松完成人臉識(shí)別的任務(wù)。然而,我們不妨仔細(xì)分析一下這兩者之間的難易程度:在計(jì)算機(jī)的“眼里”,圍棋的棋盤不過是個(gè)19x19的矩陣,矩陣的每一個(gè)元素可能的取值都來自于一個(gè)三元組{0,1,2},分別代表無子,白子及黑子,因此輸入向量可能的取值數(shù)為3361;而對(duì)于人臉識(shí)別來講,以一幅512x512的輸入圖像為例,它在計(jì)算機(jī)的“眼中”是一個(gè)512x512x3維的矩陣,矩陣的每一個(gè)元素可能的取值范圍為0~255,因此輸入向量可能的取值數(shù)為256786432。雖然,圍棋AI和人臉識(shí)別都是尋求合適的變換函數(shù)f,但后者輸入空間的復(fù)雜度顯然遠(yuǎn)遠(yuǎn)大于前者。
對(duì)于一個(gè)理想的變換函數(shù)f而言,為了達(dá)到最優(yōu)的分類效果,在變換后的特征空間上,我們希望同類樣本的類內(nèi)差盡可能小,同時(shí)不同類樣本的類間差盡可能大。但是,理想是豐滿的,現(xiàn)實(shí)卻是骨感的。由于光照、表情、遮擋、姿態(tài)等諸多因素(如圖1)的影響,往往導(dǎo)致不同人之間的差距比相同人之間差距更小,如圖2。人臉識(shí)別算法發(fā)展的歷史就是與這些識(shí)別影響因子斗爭(zhēng)的歷史。
圖1 人臉識(shí)別的影響因素
圖2 姿態(tài)導(dǎo)致不同人相似度比同人更高
人臉識(shí)別技術(shù)發(fā)展
早在20世紀(jì)50年代,認(rèn)知科學(xué)家就已著手對(duì)人臉識(shí)別展開研究。20世紀(jì)60年代,人臉識(shí)別工程化應(yīng)用研究正式開啟。當(dāng)時(shí)的方法主要利用了人臉的幾何結(jié)構(gòu),通過分析人臉器官特征點(diǎn)及其之間的拓?fù)潢P(guān)系進(jìn)行辨識(shí)。這種方法簡(jiǎn)單直觀,但是一旦人臉姿態(tài)、表情發(fā)生變化,則精度嚴(yán)重下降。
1991年,著名的“特征臉”方法[1]第一次將主成分分析和統(tǒng)計(jì)特征技術(shù)引入人臉識(shí)別,在實(shí)用效果上取得了長足的進(jìn)步。這一思路也在后續(xù)研究中得到進(jìn)一步發(fā)揚(yáng)光大,例如,Belhumer成功將Fisher判別準(zhǔn)則應(yīng)用于人臉分類,提出了基于線性判別分析的Fisherface方法[2]。
21世紀(jì)的前十年,隨著機(jī)器學(xué)習(xí)理論的發(fā)展,學(xué)者們相繼探索出了基于遺傳算法、支持向量機(jī)(Support Vector Machine, SVM)、boosting、流形學(xué)習(xí)以及核方法等進(jìn)行人臉識(shí)別。 2009年至2012年,稀疏表達(dá)(Sparse Representation)[3]因?yàn)槠鋬?yōu)美的理論和對(duì)遮擋因素的魯棒性成為當(dāng)時(shí)的研究熱點(diǎn)。
與此同時(shí),業(yè)界也基本達(dá)成共識(shí):基于人工精心設(shè)計(jì)的局部描述子進(jìn)行特征提取和子空間方法進(jìn)行特征選擇能夠取得最好的識(shí)別效果。Gabor[4]及LBP[5]特征描述子是迄今為止在人臉識(shí)別領(lǐng)域最為成功的兩種人工設(shè)計(jì)局部描述子。這期間,對(duì)各種人臉識(shí)別影響因子的針對(duì)性處理也是那一階段的研究熱點(diǎn),比如人臉光照歸一化、人臉姿態(tài)校正、人臉超分辨以及遮擋處理等。也是在這一階段,研究者的關(guān)注點(diǎn)開始從受限場(chǎng)景下的人臉識(shí)別轉(zhuǎn)移到非受限環(huán)境下的人臉識(shí)別。LFW人臉識(shí)別公開競(jìng)賽在此背景下開始流行,當(dāng)時(shí)最好的識(shí)別系統(tǒng)盡管在受限的FRGC測(cè)試集上能取得99%以上的識(shí)別精度,但是在LFW上的最高精度僅僅在80%左右,距離實(shí)用看起來距離頗遠(yuǎn)。
2013年,MSRA的研究者首度嘗試了10萬規(guī)模的大訓(xùn)練數(shù)據(jù),并基于高維LBP特征和Joint Bayesian方法[6]在LFW上獲得了95.17%的精度。這一結(jié)果表明:大訓(xùn)練數(shù)據(jù)集對(duì)于有效提升非受限環(huán)境下的人臉識(shí)別很重要。然而,以上所有這些經(jīng)典方法,都難以處理大規(guī)模數(shù)據(jù)集的訓(xùn)練場(chǎng)景。
2014年前后,隨著大數(shù)據(jù)和深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)重受矚目,并在圖像分類、手寫體識(shí)別、語音識(shí)別等應(yīng)用中獲得了遠(yuǎn)超經(jīng)典方法的結(jié)果。香港中文大學(xué)的Sun Yi等人提出將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到人臉識(shí)別上[7],采用20萬訓(xùn)練數(shù)據(jù),在LFW上第一次得到超過人類水平的識(shí)別精度,這是人臉識(shí)別發(fā)展歷史上的一座里程碑。自此之后,研究者們不斷改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)擴(kuò)大訓(xùn)練樣本規(guī)模,將LFW上的識(shí)別精度推到99.5%以上。如表1所示,我們給出了人臉識(shí)別發(fā)展過程中一些經(jīng)典的方法及其在LFW上的精度,一個(gè)基本的趨勢(shì)是:訓(xùn)練數(shù)據(jù)規(guī)模越來越大,識(shí)別精度越來越高。如果讀者閱讀有興趣了解人臉識(shí)別更細(xì)節(jié)的發(fā)展歷史,可以參考文獻(xiàn)[8][9]。
表1 人臉識(shí)別經(jīng)典方法及其在LFW上精度對(duì)比
技術(shù)方案
要在實(shí)用中實(shí)現(xiàn)高精度的人臉識(shí)別,就必須針對(duì)人臉識(shí)別的挑戰(zhàn)因素如光照、姿態(tài)、遮擋等進(jìn)行針對(duì)性的設(shè)計(jì)。例如,針對(duì)光照和姿態(tài)因素,要么在收集訓(xùn)練樣本時(shí)力求做到每個(gè)個(gè)體覆蓋足夠多的光照和姿態(tài)變化,要么設(shè)計(jì)出行之有效的預(yù)處理方法以補(bǔ)償光照和姿態(tài)帶來的人臉身份信息變化。圖3給出了作者在相關(guān)領(lǐng)域的一些研究成果[10][11]。
表2 較為正常的人臉識(shí)別訓(xùn)練集
表2給出了本文用到的訓(xùn)練數(shù)據(jù)集,其中前3個(gè)是當(dāng)前最主流的公開訓(xùn)練數(shù)據(jù)集,最后一個(gè)為私有業(yè)務(wù)數(shù)據(jù)集。表3出給了性能驗(yàn)證的兩個(gè)數(shù)據(jù)集及測(cè)試協(xié)議,其中LFW是目前最主流的非受限人臉識(shí)別公開競(jìng)賽。我們注意到,大多數(shù)訓(xùn)練集都有較大噪聲,如果不進(jìn)行相應(yīng)清洗操作,則訓(xùn)練會(huì)較難收斂。本文給出了一種快速可靠的數(shù)據(jù)清洗方法,如表4所示。
表3 本文用到的測(cè)試集
表4 一種快速可靠的訓(xùn)練數(shù)據(jù)清洗方法
圖4給出了一套行之有效的人臉識(shí)別技術(shù)方案,主要包括多patch劃分、CNN特征抽取、多任務(wù)學(xué)習(xí)/多l(xiāng)oss融合,以及特征融合模塊。
圖4 人臉識(shí)別技術(shù)方案
表5 數(shù)據(jù)清洗前后識(shí)別模型性能對(duì)比
表5給出了訓(xùn)練數(shù)據(jù)清洗前后在測(cè)試集上的性能對(duì)比結(jié)果。據(jù)此可以得到以下結(jié)論:
由此,我們可以知道,為了達(dá)到盡可能高的實(shí)用識(shí)別性能,我們應(yīng)該盡可能采用與使用環(huán)境相同的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練。同樣的結(jié)論也出現(xiàn)在論文[12]中。
實(shí)際上,一個(gè)完整的人臉識(shí)別實(shí)用系統(tǒng)除了包括上述識(shí)別算法以外,還應(yīng)該包括人臉檢測(cè),人臉關(guān)鍵點(diǎn)定位,人臉對(duì)齊等模塊,在某些安全級(jí)別要求較高的應(yīng)用中,為了防止照片、視頻回放、3D打印模型等對(duì)識(shí)別系統(tǒng)的假冒攻擊,還需要引入活體檢測(cè)模塊;為了在視頻輸入中取得最優(yōu)的識(shí)別效果,還需要引入圖像質(zhì)量評(píng)估模塊選擇最合適的視頻幀進(jìn)行識(shí)別,以盡可能排除不均勻光照、大姿態(tài)、低分辨和運(yùn)動(dòng)模糊等因素對(duì)識(shí)別的影響。另外,也有不少研究者和公司試圖通過主動(dòng)的方式規(guī)避這些因素的影響:引入紅外/3D攝像頭。典型的實(shí)用人臉識(shí)別方案如圖5所示。
圖5 實(shí)用人臉識(shí)別方案流程圖
總結(jié)
本文簡(jiǎn)單總結(jié)了人臉識(shí)別技術(shù)的發(fā)展歷史,并給出了實(shí)用方案設(shè)計(jì)的參考。雖然人臉識(shí)別技術(shù)在LFW公開競(jìng)賽中取得了99%以上的精度,但是在視頻監(jiān)控等實(shí)用場(chǎng)景下的1:N識(shí)別距離真正實(shí)用還有一段路要走,尤其是在N很大的情況下。未來,我們還需要在訓(xùn)練數(shù)據(jù)擴(kuò)充、新模型設(shè)計(jì)及度量學(xué)習(xí)等方面投入更多的精力,讓大規(guī)模人臉識(shí)別早日走入實(shí)用。
參考文獻(xiàn)
[1]Turkand M A, Pengland A P. Eigenfaces for recognition [J]. Journal of Cognitve Neuroscience, 1991, 3(1): 71-86.
[2]Belhumeur P, Hespanha J, Kriegman D. Eigenfaces vs. fisherfaces: Recognition using class specific linear projection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997, 19(7): 711-720.
[3]Liu C, Wechsler. Gabor feature based classification using enhanced fisher linear model for face recognition [J]. IEEE Transactions on Image Processing, 2002, 11(4): 467-476.
[4]Ahonen T, Hadid A, Pietik?inen M. Face deion with local binary patterns: Application to face recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(12): 2037-2041.
[5]Wright J, Yang A, Ganesh A, Sastry S, Ma Y. Robust face recognition via sparse representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227.
[6]Chen D, Cao X, Wen F, Sun J. Blessing of dimensionality: high-dimensional feature and its efficient compression for face verification [C]. IEEE International Conference on Computer Vision and Pattern Recognition, 2013.
[7]Sun Y, Wang X, Tang X. Deep learning face representation by joint identification-Verification [C].
[8]Zhao W, Chellappa R, Rosenfeld A, Phillips P J. Face recognition: A literature survey [J]. ACM Computing Surveys, 2003, 35(4): 399-458.
[9]Li S Z, Jain A K. Handbook of face recognition (2nd Edition) [M]. Springer-Verlag, 2011.
[10]Wang B, Li W, Yang W, Liao Q. Illumination normalization based on Weber’s law with application to face recognition [J]. IEEE Signal Processing Letters, 2011, 18(8): 462-465.
[11]Wang Biao, Feng X, Gong L, Feng H, Hwang W, Han J. Robust Pose normalization for face recognition under varying views [C]. ICIP, 2015,
[12]Kan M. Domain Adaptation for face recognition: Targetize source domain briged by common subspace, IJCV, 2014.
作者簡(jiǎn)介:汪彪,阿里巴巴集團(tuán)iDST視覺計(jì)算組算法專家。2013年從清華大學(xué)電子工程系博士畢業(yè)后加入北京三星研究院任責(zé)任研究員及開發(fā)組長。2016年加入阿里巴巴。從事人臉識(shí)別方向研究及開發(fā)近10年,累計(jì)發(fā)布論文/專利20余篇。
來源:人工智能頭條