本篇大家整理的是來(lái)自上海交通大學(xué)人工智能研究院副院長(zhǎng)、華東師范大學(xué)特聘教授,國(guó)家杰出青年基金獲得者馬利莊主題為《基于大數(shù)據(jù)的人臉識(shí)別技術(shù)進(jìn)展與展望》的精彩演講。馬院長(zhǎng)參與了騰訊優(yōu)圖人臉識(shí)別、微眾銀行刷臉驗(yàn)證、商湯3D人體姿態(tài)估計(jì)等項(xiàng)目,具有豐富的理論和實(shí)踐經(jīng)驗(yàn)。
馬利莊
上海交通大學(xué)人工智能研究院副院長(zhǎng)、華東師范大學(xué)特聘教授,國(guó)家杰出青年基金獲得者
以下內(nèi)容根據(jù)速記進(jìn)行整理,經(jīng)過(guò)馬利莊本人校對(duì)。
我匯報(bào)提綱包括七個(gè)內(nèi)容。首先回顧一下過(guò)去十幾年發(fā)生的事情。一個(gè)是數(shù)字化時(shí)代興起,它催生了互聯(lián)網(wǎng),這是我們時(shí)代的主流大趨勢(shì)。許多的產(chǎn)業(yè),像數(shù)字媒體業(yè),數(shù)字相機(jī),VR/AR的技術(shù)興起。當(dāng)然我們也知道伴隨著一些行業(yè)的衰落,像膠卷等一些傳統(tǒng)的行業(yè)。早的時(shí)候,我們計(jì)算機(jī)還有很多的硬盤(pán)拷貝等等,這些現(xiàn)在都沒(méi)有了。就是因?yàn)閿?shù)字化的時(shí)代催生了互聯(lián)網(wǎng)的時(shí)代。
我們剛才看到動(dòng)動(dòng)三維這個(gè)創(chuàng)意設(shè)計(jì),里面也把一些創(chuàng)意工作放在網(wǎng)上去了,數(shù)字化,利用圖形圖像技術(shù)來(lái)展現(xiàn)?;ヂ?lián)網(wǎng)時(shí)代催生了大數(shù)據(jù)。我們知道有眾多的新媒體產(chǎn)生,如微信,幾乎每個(gè)人都在使用,平均花2個(gè)小時(shí)到3個(gè)小時(shí),都是數(shù)據(jù)的使用者,同時(shí)也是產(chǎn)生者,自然形成了社交大數(shù)據(jù)。微信不僅是社交的工具,也是一個(gè)工作的工具;同時(shí)成為了一個(gè)游戲,這是個(gè)深刻改變了人們生活形態(tài)的互聯(lián)網(wǎng)時(shí)代。同樣,有一些產(chǎn)業(yè)衰落。我們看到街頭的小商店,小商品市場(chǎng)不景氣。我印象最深刻的是義烏的小商品市場(chǎng),現(xiàn)在日子很不好過(guò)。
互聯(lián)網(wǎng)以及伴隨產(chǎn)生的大數(shù)據(jù)催生了人工智能時(shí)代!人工智能有三個(gè)要素:
一個(gè)是大數(shù)據(jù),有大數(shù)據(jù)作為原料;
第二個(gè)是計(jì)算能力,主要是GPU與CPU等;
最后是核心的算法,深度學(xué)習(xí)/卷積神經(jīng)網(wǎng)絡(luò)算法。
我1992年在浙大人工智能研究所做博士后,當(dāng)時(shí)跟何志均先生,潘云鶴教授是人工智能研究所的所長(zhǎng),那時(shí)就研究人工智能,但三起三落,人工智能的發(fā)展是螺旋式演進(jìn)的。當(dāng)時(shí)人工智能的發(fā)展為什么非常曲折和起伏,原因主要是缺少一個(gè)大數(shù)據(jù)的原料,缺少大量的算力,同時(shí)缺少深度學(xué)習(xí)等卷積神經(jīng)網(wǎng)絡(luò)新算法。當(dāng)時(shí)計(jì)算能力限制,算法處理不了現(xiàn)在大量復(fù)雜的數(shù)據(jù)或者大數(shù)據(jù)。像人臉識(shí)別的深度學(xué)習(xí)算法,需要要標(biāo)注數(shù)據(jù),我們與騰訊的優(yōu)圖人臉項(xiàng)目中,用了近百萬(wàn)級(jí)別的人臉標(biāo)注。在當(dāng)時(shí)九十年代,這是難以想象的規(guī)模。
當(dāng)時(shí)有軟盤(pán),只有1兆多,現(xiàn)在一幅超高清的圖像都是幾兆數(shù)據(jù),甚至更高。我們做AI+醫(yī)療的研究,分析腫瘤的病理切片。一張圖片有上百兆數(shù)據(jù),包括深度學(xué)習(xí)時(shí)涉及的相關(guān)參數(shù),算法實(shí)現(xiàn)過(guò)程顯示內(nèi)存很可能不夠。
人工智能時(shí)代催生智能手機(jī),智能安防,智能社區(qū),智能語(yǔ)音與機(jī)器人等。在座的各位比較幸運(yùn),因?yàn)槿斯ぶ悄軙r(shí)代中長(zhǎng)久興旺的是軟件行業(yè),創(chuàng)意創(chuàng)新。智能創(chuàng)意不可能被AI替代。但目標(biāo)明確,規(guī)則清晰的行業(yè)就非常可能被AI替代。
9億的微信用戶(hù),每天有10多億的圖像和視頻數(shù)據(jù)傳輸。阿里巴巴改寫(xiě)了商業(yè)版圖,伴隨大數(shù)據(jù),人工智能興起。在座的可能在股市中投資,過(guò)去幾年,NVDIA和AMD的股價(jià)漲了十倍,重要的因素是AI對(duì)計(jì)算能力的需求大幅增長(zhǎng),當(dāng)然另外的原因是比特幣和區(qū)塊鏈的熱潮中,大量挖礦對(duì)算力的海量需求。
互聯(lián)網(wǎng)的極速發(fā)展,自然匯聚了可視媒體大數(shù)據(jù)。這些信息的增長(zhǎng)改變了我們的生活方式,例如社交網(wǎng)絡(luò)中的微信。當(dāng)然也有挑戰(zhàn),大數(shù)據(jù)體量已經(jīng)超越了現(xiàn)有的硬件處理?xiàng)l件,比如說(shuō)存儲(chǔ)空間,和計(jì)算資源的不足。我們認(rèn)為該領(lǐng)域的科學(xué)問(wèn)題包括:數(shù)據(jù)的高效表達(dá),智能的處理以及結(jié)構(gòu)化,深度學(xué)習(xí)與感知理論,基于視覺(jué)感知的失真度量,不確定環(huán)境下的任務(wù)感知與理解等。
現(xiàn)在有理論研究證明深度學(xué)習(xí)模型合適條件下可以收斂到全局最優(yōu)解。這是目前為止深度學(xué)習(xí)中最新的一個(gè)理論成果。我們?cè)谧魑灰匾?。以前我們調(diào)侃各種深度學(xué)習(xí)模型重要的是調(diào)參數(shù),有人運(yùn)氣好,會(huì)調(diào)出好的結(jié)果,但現(xiàn)在有理論依據(jù)和保障。
技術(shù)的突破源于需求。城市大數(shù)據(jù),有很多交通、環(huán)境的感知數(shù)據(jù)等。金融大數(shù)據(jù),阿里、騰訊、百度都有積極的介入,希望提升運(yùn)用效率和結(jié)構(gòu)效率?;ヂ?lián)網(wǎng)金融中,還有所謂的萬(wàn)物互聯(lián);徐教授也講了,不光是視覺(jué),聽(tīng)覺(jué),還有嗅覺(jué),味覺(jué)等等相關(guān)的感知數(shù)據(jù)。將人、路由器,服務(wù)器,業(yè)務(wù)系統(tǒng)等等作為研究對(duì)象,以網(wǎng)絡(luò)地圖的方式實(shí)現(xiàn)網(wǎng)絡(luò)空間態(tài)勢(shì)感知,服務(wù)于網(wǎng)絡(luò)攻防戰(zhàn)。這就是斯諾登揭示的棱鏡項(xiàng)目。
回到主題,智慧城市以人為中心,我們?nèi)斯ぶ悄苁且U蟼€(gè)體的信息安全,提高人的生活質(zhì)量,讓生活更美好。2010年世博會(huì),上海提出城市讓生活更美好,非常符合我們智慧城市的總體目標(biāo)。個(gè)體信息安全就涉及到身份的認(rèn)證和門(mén)禁、監(jiān)控等。所以人臉識(shí)別和行為姿態(tài)識(shí)別是關(guān)鍵技術(shù)。
現(xiàn)在講一個(gè)比較形象的術(shù)語(yǔ)就是刷臉技術(shù)。很多人都知道,早幾年的時(shí)候,我們跟騰訊合作研發(fā)微眾銀行的刷臉技術(shù),微眾銀行只需一個(gè)總部即可,不像工商銀行一樣有幾萬(wàn)的分支機(jī)構(gòu)。它只要一個(gè)總部,其業(yè)務(wù)都可以通過(guò)遠(yuǎn)程核身和身份認(rèn)證可以實(shí)現(xiàn)。當(dāng)時(shí)總理親歷了刷臉技術(shù)過(guò)程。刷臉驗(yàn)證,出租司機(jī)獲得了3.5萬(wàn)元的貸款。這是微眾銀行的第一筆互聯(lián)網(wǎng)銀行的放貸業(yè)務(wù)。
互聯(lián)網(wǎng)人臉識(shí)別技術(shù)跟傳統(tǒng)銀行不同。銀行里面我們知道有“三親”原則。這是互聯(lián)網(wǎng)金融這塊必須考慮的問(wèn)題,親見(jiàn)申請(qǐng)人本人,親核申請(qǐng)人身份證原件,親見(jiàn)申請(qǐng)人本人簽字。我們可以通過(guò)遠(yuǎn)程核身技術(shù)做到。
傳統(tǒng)的方法是人工成本高。剛才講的刷臉技術(shù)用于銀行中的互聯(lián)網(wǎng)金融,刷臉準(zhǔn)確率99.9%還是不夠。生物識(shí)別技術(shù)有很多種,我們要融合多元特征,例如臉部表情、聲音或聲紋,還有人臉的特征,提高身份遠(yuǎn)程核身的可靠性和準(zhǔn)確率。人臉識(shí)別是最為自然的交互技術(shù),現(xiàn)在可以做到非常高的精度。我們知道讓你按一個(gè)手印,可能你感覺(jué)像罪犯,因?yàn)樯眢w的接觸,很多人比較忌諱。目前人臉識(shí)別技術(shù)有門(mén)檻。我們跟騰訊優(yōu)圖合作來(lái),在LFW數(shù)據(jù)集上可以達(dá)到99.65%和99.8%。
人臉識(shí)別技術(shù)挑戰(zhàn)與難點(diǎn),主要是圖像的采集質(zhì)量;其次是光照環(huán)境和姿態(tài)。因?yàn)樽R(shí)別分為主動(dòng)式和被動(dòng)式;金融支付里面是人會(huì)主動(dòng)配合采集設(shè)備,圖像質(zhì)量和人臉姿態(tài)好。這種情形,識(shí)別率可以達(dá)到99%。但很多時(shí)候,人臉會(huì)在不同的光照條件下,產(chǎn)生大的差異,比如說(shuō)昨天晚上我們部分智能創(chuàng)意與數(shù)字藝術(shù)的專(zhuān)委會(huì)人員合影的時(shí)候,背影強(qiáng)光,人臉拍出來(lái)就很暗,姿態(tài)也各異等等。還有年齡跨度問(wèn)題等。身份證有效期有15年或20年。還有院士說(shuō)豬臉的識(shí)別,豬臉狀態(tài)是短暫的,或者快速變化的,因?yàn)樯L(zhǎng)周期一般只有半年,其識(shí)別率會(huì)大大下降。我們知道蠟像,外形幾乎跟你做的一模一樣。當(dāng)然蠟像缺乏臉部表情,讓他對(duì)話就露餡了。我們捕捉臉部表情的微變化這個(gè)就可以防御有人用它來(lái)欺騙攻擊系統(tǒng)。
目前我們的研究方向包括深度學(xué)習(xí)技術(shù),基于人臉物理性質(zhì)的推理和人臉語(yǔ)義或表情的推理;人臉監(jiān)測(cè),特征跟蹤,跨年齡的人臉識(shí)別,以及三維人臉識(shí)別。我們重點(diǎn)攻克三維人臉識(shí)別。一張正面的照片,可以生成一張逼真的三維人臉。
活體檢測(cè)可以真正提高我們這個(gè)識(shí)別系統(tǒng)的安全性。有的公司號(hào)稱(chēng)是采用人臉識(shí)別技術(shù),其實(shí)用一張大照片就能通過(guò)驗(yàn)證。這說(shuō)明他們沒(méi)有采用活體檢測(cè),也沒(méi)有用三維光照變化的信息,以及綜合人臉表情、聲紋來(lái)辨別真假。
下面我講講互聯(lián)網(wǎng)金融視頻監(jiān)控中取得的進(jìn)展。
大的框架,我們看看人臉識(shí)別上面。這是我們跟騰訊的優(yōu)圖組一起合作,基于騰訊云平臺(tái)和相關(guān)的人臉識(shí)別技術(shù)。2014年的時(shí)候,在FDDB數(shù)據(jù)集上人臉檢測(cè)達(dá)到了世界第一,人臉識(shí)別率在LFW數(shù)據(jù)集上刷新世界紀(jì)錄99.65%。采用的主要是標(biāo)注大量的人臉圖片與非人臉圖片的數(shù)據(jù)(近百萬(wàn)級(jí)別)。這在20年以前是難以想象的。騰訊優(yōu)圖有很多的實(shí)習(xí)生,認(rèn)真的標(biāo)注。我們采用VIOLA-Jones瀑布流框架的算法優(yōu)化。
大規(guī)模小人臉的檢測(cè)方面。這張照片里面人臉數(shù)目上千。計(jì)算機(jī)視覺(jué)算法可以識(shí)別超860個(gè)人臉。以前的方法是無(wú)法想象的。一般的人能夠識(shí)別到兩百多個(gè),已經(jīng)非常很難。主要是用的這個(gè)DSFD人臉檢驗(yàn)算法,包括了特征增強(qiáng)模塊、分層錨點(diǎn)漸進(jìn)式LOSS的算法。
根據(jù)人臉識(shí)別的身份認(rèn)證。我們用百萬(wàn)級(jí)人臉數(shù)據(jù)庫(kù)訓(xùn)練,多個(gè)數(shù)百層深度學(xué)習(xí)模型集成。目前有一個(gè)權(quán)威數(shù)據(jù)集MegaFace,我們項(xiàng)目組取得了83.29%的準(zhǔn)確率,位列榜首。我們提出了新的光線活體提高識(shí)別方法的安全性。大家知道安全性非常重要,真正用于安全監(jiān)控以及公安系統(tǒng)的時(shí)候,不光是識(shí)別人臉模型,還要考慮防偽和防攻擊。我們這次進(jìn)博會(huì)刷臉系統(tǒng)應(yīng)用,每天差不多30萬(wàn)人進(jìn)出場(chǎng)館。我們知道6位的金融密碼,其實(shí)試一百萬(wàn)次就一定有你正確的密碼。30萬(wàn)人中,臉長(zhǎng)得非常像的概率是很大的,特別是有些雙胞胎,很難識(shí)別。我們要用到多生物特征技巧,達(dá)到安全、簡(jiǎn)便、高速、通用等要求。
安防監(jiān)控里面,我們需要找到不同攝像頭里的同一個(gè)人物。我們以前出了事情后期檢驗(yàn),看問(wèn)題在哪;現(xiàn)在要同步進(jìn)行。該任務(wù)下一個(gè)路徑到哪一個(gè)地方等等。人的姿態(tài)會(huì)有很大差異,同一個(gè)人的姿態(tài)變化也很多。人體重識(shí)別方面,我們?cè)谌齻€(gè)主流數(shù)據(jù)上獲得第一。主要方法是通過(guò)了多任務(wù)交替訓(xùn)練,基于分塊的金字塔模型。
我們與商湯也是開(kāi)展了這方面的合作,跟騰訊的合作已經(jīng)七年多。人體跟蹤方面,追蹤視頻中行人并對(duì)其運(yùn)動(dòng)軌跡做出預(yù)判。項(xiàng)目組的人體跟蹤技術(shù),在權(quán)威測(cè)評(píng)MOT challenge上取得了兩項(xiàng)記錄。采用的技術(shù)方法,包括基于圖匹配模型的目標(biāo)關(guān)聯(lián)算法,基于有效動(dòng)態(tài)差分的運(yùn)動(dòng)相似度計(jì)算算法,以及基于行人再識(shí)別技術(shù)的特征相似度模型等。還有其他的應(yīng)用,基于深度學(xué)習(xí)的人臉識(shí)別技術(shù),以及顏值測(cè)算,可用于社交娛樂(lè)。
我們前年的時(shí)候,用了1300臺(tái)服務(wù)器,每天1億人臉計(jì)算平臺(tái)。還有天天P圖,人臉美化等分析技術(shù)。
我們跟商湯合作開(kāi)展3D人體姿態(tài)估計(jì)。通過(guò)單張圖片,估計(jì)人體的姿態(tài)模型?;诙S圖像序列估計(jì)3D人體姿態(tài)是非常實(shí)用的。在最大的人體姿態(tài)數(shù)據(jù)集Human3.6M上,我們?nèi)〉萌?xiàng)指標(biāo)第一。這個(gè)成果還在保密階段,主要是對(duì)人體的快速估計(jì)。還有像素級(jí)別的語(yǔ)義分割,GTAV和SYNTHIA數(shù)據(jù)集作為源數(shù)據(jù)集,Cityscape作為目標(biāo)數(shù)據(jù)集,相關(guān)的指標(biāo)Mean IoU提高10個(gè)百分點(diǎn)。還有一個(gè)是預(yù)測(cè)RGB圖片上每個(gè)像素對(duì)應(yīng)位置的深度值。該項(xiàng)研究非常重要。我們?cè)谧目隙ㄓ泻芏喔銊?chuàng)意設(shè)計(jì),會(huì)涉及到二維三維的。我想做個(gè)革命性預(yù)測(cè),因?yàn)橛辛松疃认鄼C(jī)以后,基于很好的三維重構(gòu)技術(shù)將來(lái)每個(gè)普通的人都可以生成三維的場(chǎng)景;普通人拍一段視頻就能生成三維的,自然形成海量的三維動(dòng)畫(huà)視頻數(shù)據(jù),這是未來(lái)大發(fā)展方向。
我很簡(jiǎn)單的講一下視覺(jué)無(wú)損壓縮技術(shù)?;谌祟?lèi)的視覺(jué)特性,對(duì)圖像進(jìn)行極限程度的壓縮。只要人的視覺(jué)感受不出差別,我們對(duì)其做一個(gè)最大程度的壓縮,非常實(shí)用。我們?cè)?014年的時(shí)候,就處理了1200億張圖片的壓縮。這個(gè)例子中,左邊是3M,右邊是700多K,但是肉眼分辨不出哪一個(gè)是原始圖像。還有相關(guān)研究如自動(dòng)上色和風(fēng)格化。中國(guó)傳統(tǒng)文化中有所謂的面像學(xué)。相由心生,從大數(shù)據(jù)的概念,從面部特征包括耳垂,眼眉間距等,找出相關(guān)的統(tǒng)計(jì)規(guī)律。人臉配準(zhǔn)和識(shí)別可以用于望診。我們跟上海兒童醫(yī)學(xué)研究院做一個(gè)兒童罕見(jiàn)遺傳基因缺損癥研究項(xiàng)目。例如唐氏綜合癥,我詫異的是什么呢?兩個(gè)兒童得了某種基因缺損癥,他們沒(méi)有任何血緣關(guān)系,但是臉部的共同特征非常明顯。我做基因檢測(cè),有將近兩千多種的基因缺損癥,這個(gè)太費(fèi)錢(qián)費(fèi)時(shí)。我用照片篩選一下,判斷一下你的某一個(gè)基因可能是缺損的,那么再去做對(duì)應(yīng)的DNA檢測(cè)。
中醫(yī)四診望聞問(wèn)切,是辨證論治,可采用典型的專(zhuān)家系統(tǒng)方法。比較重要的應(yīng)用需求就是眼底黃斑病變的AI算法。到了一定年齡以后,人眼普遍會(huì)有一定的問(wèn)題。信息社會(huì),人的視覺(jué)消耗太大了。每天手機(jī)屏幕那么小,我們?cè)谘鄣S斑定位上取得了一個(gè)比賽的第一。肺病診斷方面的重大應(yīng)用需求?,F(xiàn)在非常明確的事實(shí),通過(guò)AI+醫(yī)療智能化算法判別的準(zhǔn)確率,比專(zhuān)家級(jí)醫(yī)生提高10多個(gè)百分點(diǎn)。我是比較樂(lè)觀的,計(jì)算機(jī)AI算法一定會(huì)超過(guò)專(zhuān)家醫(yī)生的水平,高精尖的醫(yī)生永遠(yuǎn)需要,但工作強(qiáng)度大大降低。
大數(shù)據(jù)和強(qiáng)大的算力使得深度學(xué)習(xí)技術(shù)有了用武之地。國(guó)家對(duì)人工智能的期望非常大,我們的壓力也很大,到底有多少人工智能的產(chǎn)業(yè)能夠落地。我想計(jì)算機(jī)視覺(jué)有很多落地的重大應(yīng)用,也包括部分自然語(yǔ)言處理方面的技術(shù)。
人工智能重大需求,一個(gè)是純的互聯(lián)網(wǎng)銀行;第二個(gè)是智能安防與公共安全。智慧城市中的異常檢測(cè),復(fù)雜的場(chǎng)景下的身份認(rèn)證和行為識(shí)別等需要研究。還有一個(gè)是新的獲取手段,包括深度數(shù)碼相機(jī)。剛才講的智能動(dòng)畫(huà)創(chuàng)作,大眾化的創(chuàng)意設(shè)計(jì),人工智能+AR/VR。創(chuàng)意設(shè)計(jì)是我們這個(gè)大會(huì)的主題之一,這塊將有大的進(jìn)展??傊斯ぶ悄懿蛔兊氖翘魬?zhàn)和機(jī)遇。