近日,據(jù)報(bào)道,日本專門生產(chǎn)超逼真面具的公司REAL-f正受到科技、娛樂以及汽車等行業(yè)的青睞。這家公司利用樹脂和塑料制作面具,可以精確地復(fù)制人的面部表情,成本約為30萬日元。
REAL-f公司創(chuàng)始人北川修三是在印刷廠工作時(shí)想到這個(gè)創(chuàng)意的,他花了兩年時(shí)間開發(fā),將面部數(shù)據(jù)從高質(zhì)量照片轉(zhuǎn)換為3D面具的方法,并于2011年開始銷售面具。REAL-f公司表示:“之前是用黑白照片,后來發(fā)展到彩色照片,現(xiàn)在,我們要讓大家進(jìn)入3D立體時(shí)代。”在制作面具之前,公司的專家們會(huì)使用精密的拍攝工具從各個(gè)不同角度拍攝顧客想要的面孔,然后通過電腦將照片素材整合成3D圖像,最后再使用“人體影印機(jī)”將人臉圖像印制到特定的材料上,整個(gè)制作過程大概需要花費(fèi)兩周的時(shí)間,制成效果能以假亂真,異常逼真。
這種面具有個(gè)明顯的用例,就是使用它們來進(jìn)行人臉識(shí)別測(cè)試。一家日本汽車公司訂購了沉睡表情的面具,以改進(jìn)其面部識(shí)別技術(shù),用以訓(xùn)練其檢測(cè)司機(jī)打瞌睡的行為。蘋果也用同樣的高仿真面具,測(cè)試?yán)肍ace ID登錄iPhone X功能。
以上的應(yīng)用有個(gè)共通屬性,那就是它們都屬于人臉識(shí)別。而傳統(tǒng)的人臉識(shí)別實(shí)際上屬于圖像處理加機(jī)器學(xué)習(xí),就是從圖像找出人臉區(qū)域,從人臉區(qū)域回歸出人臉形狀(特征點(diǎn)),再通過特征點(diǎn)計(jì)算出特征值,對(duì)比時(shí)通過對(duì)兩者的特征值進(jìn)行一系列的運(yùn)算得出相似度,其中的轉(zhuǎn)變過程非常復(fù)雜,實(shí)際操作的對(duì)象就是圖片像素點(diǎn)的灰度值,收到了圖片影響較多,如光線較強(qiáng),背景復(fù)雜程度,遮擋、眼鏡、胡子以及角度,夜里攝像頭無法照亮面部時(shí),也無法使用。
一、人臉識(shí)別技術(shù)概述
人臉識(shí)別是指利用分析比較人臉視覺特征信息進(jìn)行身份鑒別的計(jì)算機(jī)技術(shù),其可以定義為:輸入查詢場景中的靜止圖像或者視頻,使用人臉數(shù)據(jù)庫識(shí)別或驗(yàn)證場景中的一個(gè)人或者多個(gè)人,通常也被稱為面部識(shí)別、人像識(shí)別。人臉識(shí)別具有非強(qiáng)制性、非接觸性、并發(fā)性等特點(diǎn),因此研究者在上世紀(jì)六、七十年代就開始了人臉識(shí)別技術(shù)的研究。進(jìn)入九十年代后,隨著高性能計(jì)算機(jī)的發(fā)展,人臉識(shí)別技術(shù)獲得了重大突破。
美國國家標(biāo)準(zhǔn)技術(shù)局(NIST)舉辦的FRVT2006(Face RecognitionVendor Test 2006)通過大規(guī)模的人臉數(shù)據(jù)庫測(cè)試表明,人臉識(shí)別技術(shù)的識(shí)別精度要比FRVT2002至少提高了一個(gè)數(shù)量級(jí)。部分識(shí)別算法的精度超過了人類的平均水平。對(duì)于高分辨率、高質(zhì)量的正面人臉的識(shí)別率達(dá)到100%。
二、人臉識(shí)別技術(shù)的難點(diǎn)
雖然人臉識(shí)別技術(shù)經(jīng)歷了較長的研究階段,但至今還是被認(rèn)為是生物特征識(shí)別技術(shù)中較為困難的研究課題之一,其原因在于:
1.背景環(huán)境的復(fù)雜多樣
在進(jìn)行人臉識(shí)別前需要先對(duì)監(jiān)控場景中的人臉進(jìn)行定位,即人臉檢測(cè)。人臉檢測(cè)的正確與否直接影響人臉識(shí)別性能。當(dāng)監(jiān)控場景的背景較為復(fù)雜時(shí),人臉檢測(cè)率也會(huì)隨之降低,因此能夠適應(yīng)復(fù)雜背景環(huán)境的人臉檢測(cè)算法是人臉識(shí)別技術(shù)的難點(diǎn)之一。
2. 光照條件的復(fù)雜多變
在智能視頻監(jiān)控系統(tǒng)的實(shí)際應(yīng)用中,會(huì)由于監(jiān)控環(huán)境光線的變化造成檢測(cè)到的人臉圖像存在不同的陰暗變化,不同光照條件下人臉識(shí)別雖然在性能上比FRVT2002有顯著提高,但是還沒在根本上克服光照對(duì)識(shí)別率的影響。
3. 人臉表情的多樣性
在實(shí)際應(yīng)用過程中,人臉的表情隨時(shí)都可能發(fā)生變化。當(dāng)人的表情發(fā)生變化時(shí),可能會(huì)引起人臉輪廓以及紋理的變化,同時(shí)由于面部肌肉的牽引,面部的特征點(diǎn)的位置也會(huì)隨之改變。不同的表情引起面部的變化都不同,此外,不同的人的相同表情影響也不相同,因此很難用統(tǒng)一的標(biāo)準(zhǔn)來精確劃分各種表情對(duì)不同人的影響。
4.采集人臉的角度多樣性
人臉的角度多樣性主要是指由于拍攝角度的不同導(dǎo)致檢測(cè)到的人臉圖像的旋轉(zhuǎn),包括平面旋轉(zhuǎn)和深度旋轉(zhuǎn)。表情變化對(duì)人臉圖像的影響相同,拍攝角度的變化同樣會(huì)導(dǎo)致人臉輪廓的變化,除此之外,由于角度的變化,可能會(huì)導(dǎo)致人臉的部分特征無法被正確提取,進(jìn)一步導(dǎo)致人臉的錯(cuò)誤識(shí)別。
5.遮擋問題
即使是非人為故意遮擋,在實(shí)際應(yīng)用時(shí)檢測(cè)到的人臉圖像也經(jīng)常會(huì)出現(xiàn)如帽子、眼鏡等遮擋物,除了這些,胡子以及劉海的變化也直接影響人臉的特征提取,當(dāng)人臉圖像發(fā)生遮擋時(shí),人臉的很多信息會(huì)丟失,導(dǎo)致人臉識(shí)別算法出錯(cuò)或失效。
三、目前國內(nèi)人臉識(shí)別現(xiàn)狀
目前國內(nèi)做圖像識(shí)別、人臉識(shí)別和視頻識(shí)別的公司很多,但是真正脫穎而出的企業(yè)卻極少,像是曠世科技Face++、商湯科技、極鏈科技Video++等,都是經(jīng)過多年的技術(shù)積累,才有了現(xiàn)在的成果。以視頻識(shí)別最為突出的極鏈科技Video++為例,Video++作為一家以AI產(chǎn)品技術(shù)為核心,驅(qū)動(dòng)文娛新經(jīng)濟(jì)發(fā)展人工智能科技公司,公司對(duì)于人臉識(shí)別和視頻識(shí)別都有豐富的技術(shù)積累。
從技術(shù)層面出發(fā),在視頻識(shí)別過程中,Video++首先是對(duì)視頻做一個(gè)鏡頭分割,在鏡頭片斷里面做后續(xù)所有的識(shí)別檢測(cè)工作。完成鏡頭分割之后進(jìn)入到內(nèi)容提取,對(duì)于人臉識(shí)別來說內(nèi)容提取主要是兩個(gè)步驟,一個(gè)人臉檢測(cè)框的獲取,另外一個(gè)是人臉的id識(shí)別。人臉檢測(cè)框主要是兩個(gè)步驟,一個(gè)是人臉檢測(cè),一個(gè)人臉跟蹤。檢測(cè)和跟蹤有不同的特性,人臉檢測(cè)速度比較慢,準(zhǔn)確率比較高。由于跟蹤用到了前后之間相互的運(yùn)動(dòng)關(guān)系,它的速度比較快,但是它的準(zhǔn)確率相對(duì)于檢測(cè)比較低。既要兼顧到準(zhǔn)確率,同時(shí)又要兼顧到速度的要求。
就是說一開始對(duì)人臉在全局范圍內(nèi)做一個(gè)檢測(cè)。檢測(cè)完之后做跟蹤,跟蹤過程當(dāng)中需要用人臉檢測(cè)對(duì)它進(jìn)行一個(gè)校正。因?yàn)楦櫵惴ㄈ榛圆惶?有時(shí)候會(huì)有一個(gè)偏移。怎么用人臉檢測(cè)算法對(duì)它進(jìn)行一個(gè)校正呢?在跟蹤框周圍小區(qū)域里面做一個(gè)局部檢測(cè),由于區(qū)域比較小檢測(cè)開銷就比較小。它的速度保證比較快,但是它的準(zhǔn)確率又比跟蹤輸出的人臉框要高一些,在這個(gè)過程當(dāng)中我們就可以用檢測(cè)跟蹤相結(jié)合的方式來提高準(zhǔn)確率,同時(shí)又保證算法的速度不受影響。在過程之后我們就進(jìn)行人臉的對(duì)齊,做完人臉對(duì)齊下面一個(gè)重要的步驟就是質(zhì)量的評(píng)估。
對(duì)采集到的序列進(jìn)行質(zhì)量評(píng)估,質(zhì)量評(píng)估過程當(dāng)中,找到質(zhì)量比較好的那些采量。把那些質(zhì)量比較差的采量進(jìn)行丟棄。通過這一方法保留下來比較好的采樣,對(duì)質(zhì)量差的數(shù)據(jù)進(jìn)行丟棄。這樣就保證了很多噪聲的干擾得到了一個(gè)去除。在質(zhì)量評(píng)估之后對(duì)質(zhì)量比較好的采樣進(jìn)行提取,然后進(jìn)行特征比對(duì)。
由于在整個(gè)采樣序列上每一個(gè)幀它都會(huì)有一個(gè)識(shí)別結(jié)果,這些識(shí)別結(jié)果怎么進(jìn)行一個(gè)融合,這里面可能會(huì)有一些噪聲,去除后有一些識(shí)別錯(cuò)誤的結(jié)果,這就需要涉及一個(gè)識(shí)別結(jié)果的融合機(jī)制。最后通過融合機(jī)制得到最終的一個(gè)識(shí)別結(jié)果。
在過去的五年里,計(jì)算機(jī)視覺飛速發(fā)展,使得許多基本的人臉識(shí)別任務(wù)比以往任何時(shí)候都更加精確和普遍,以至于亞馬遜、谷歌、IBM和微軟等科技巨頭都將其作為現(xiàn)成的商品出售。然而,讓機(jī)器去識(shí)別視頻中正在發(fā)生的事情,卻具有無限的挑戰(zhàn)性,因?yàn)槟悴粌H要在一張圖片中處理對(duì)象、面孔和風(fēng)景,還要處理時(shí)間、動(dòng)作、事情和觀點(diǎn)。好消息是,同樣的發(fā)展也促進(jìn)了當(dāng)前圖像識(shí)別的繁榮,即更好、更多的訓(xùn)練數(shù)據(jù)和更快、更便宜的計(jì)算能力——也促進(jìn)了計(jì)算機(jī)視覺在視頻上的應(yīng)用。