人臉辨識(shí)的核心問題,不管是人臉確認(rèn)(face verification)或是人臉識(shí)別(face identification),都必須在人臉上取出具有「辨別度」的特征值。
也就是說,同個(gè)人的多張照片,即使在不一樣的光源、時(shí)間、打扮、些微的表情、視角變化之下拍攝,還具有非常類似的高維數(shù)值(可以想象在高維空間中非常相近的點(diǎn)群),相反地,對(duì)于不同人的照片,需很容易區(qū)別,在高維空間中維持相當(dāng)?shù)木嚯x。
這目標(biāo)聽起來很直覺,但是研究人員幾十年來的努力到最近才有突破性的發(fā)展。
人臉辨識(shí)的一般步驟為:人臉偵測(cè)、人臉校正、人臉特征值的擷取。目的在照片中,找到人臉的位置,利用人臉的特征點(diǎn)(如嘴角、人中、眼睛等)為錨點(diǎn),將人臉校正到同一個(gè)比較基準(zhǔn),然后取出特征值來進(jìn)行辨識(shí)。
早期的人臉偵測(cè)大多基于效率的考量,利用組合一系列簡(jiǎn)易的運(yùn)算來檢測(cè)畫面中的可能人臉,甚至可以在相機(jī)的硬件中實(shí)現(xiàn)。但是在實(shí)際場(chǎng)域中的應(yīng)用仍然有諸多限制,直到這幾年深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network;CNN )的使用,才讓偵測(cè)率大大提升。
人臉特征值的擷取是最核心的問題。早期廣泛采用的方法為特征臉(eigenface),這是1991年MIT提出的方法,原理是人臉具有大致的輪廓,可以找出特征人臉為基礎(chǔ)來線性組合出各個(gè)人臉。理論上同一個(gè)人的線性組合參數(shù)應(yīng)該類似,所以就用這些組合參數(shù)來作為人臉特征值。
此外,還可以利用人臉各個(gè)器官之間的相對(duì)位置、比例等作為特征值?;蚴抢绵徑嬎氐牧炼炔顏肀硎咎卣髦档木植慷禈邮?Local Binary Patterns;LBP)?;蚴菍⑷四樚囟ㄎ恢玫耐庥^,利用具代表性的小區(qū)塊進(jìn)行編碼的稀疏編碼法(sparse coding)。這些技術(shù)都為人臉辨識(shí)的落實(shí)往前推進(jìn)一步。為求系統(tǒng)穩(wěn)定,大部分應(yīng)用系統(tǒng)都采用雞尾酒作法,也就是混搭各種特征值。
為何早期使用人臉辨識(shí)的場(chǎng)域不多呢?因?yàn)殄e(cuò)誤率所造成的困擾遠(yuǎn)大于技術(shù)的效率。舉例來說,保全系統(tǒng)使用人臉辨識(shí)作為門禁卡,如果錯(cuò)誤率5%的話,每100人次進(jìn)出,就有5次需要人為介入,不勝其煩。
技術(shù)的正確率、穩(wěn)定度的提升關(guān)乎可否全面落實(shí)到產(chǎn)品上,也就只有等到深度學(xué)習(xí)(更準(zhǔn)確為卷積神經(jīng)網(wǎng)絡(luò))技術(shù)的突破,才讓人臉辨識(shí)數(shù)十年的研究有機(jī)會(huì)在產(chǎn)業(yè)界帶來廣泛應(yīng)用的機(jī)會(huì),而且有機(jī)會(huì)溢出傳統(tǒng)安控領(lǐng)域而成為「?jìng)€(gè)人化」的基礎(chǔ)引擎。
原文標(biāo)題:【名家專欄】人臉辨識(shí)的技術(shù)環(huán)節(jié)
文章出處:【微信號(hào):DIGITIMES,微信公眾號(hào):DIGITIMES】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。