編者按:自換臉工具Deepfake風(fēng)行全球后,人們開始意識(shí)到除了詐騙短信、詐騙電話,現(xiàn)在連視頻都能“詐騙”了。為了應(yīng)對(duì)這種由新技術(shù)帶來(lái)的犯罪風(fēng)險(xiǎn),近來(lái)研究人員一直在努力發(fā)掘虛假視頻和真實(shí)視頻的區(qū)別,而就在本月初,美國(guó)國(guó)防部正式宣布了紐約大學(xué)開發(fā)的一個(gè)檢測(cè)工具,他們找到了GAN生成視頻的一些明顯特征。
當(dāng)時(shí)美國(guó)國(guó)防部把這項(xiàng)技術(shù)譽(yù)為人類對(duì)于AI的軍備競(jìng)賽的一個(gè)開端,近日,這項(xiàng)技術(shù)的開發(fā)人員接受了媒體采訪。讓我們結(jié)合報(bào)道和論文,近距離看看他們的方法究竟怎樣。
Deepfake當(dāng)前的缺陷是沒法找到足夠閉著眼睛的圖像
隨著2018年年中將近,美國(guó)大選活動(dòng)也開始逐漸升溫,在諸多宣傳中,一種新形式的虛假信息開始在社交媒體上廣泛傳播。這種生成虛假視頻的技術(shù)叫做“Deepfake”,它能把視頻中的臉換成其他人的臉,同時(shí)保持臉部肌肉運(yùn)動(dòng)和諧,口型和聲音匹配。
結(jié)合政治宣傳,這意味著任何人都能“惡搞”候選人,制作他們“演講”“活動(dòng)”的假視頻。
由于這項(xiàng)技術(shù)十分新穎,效果又格外出色,普通人如果不仔細(xì)看,可能無(wú)法分辨真實(shí)視頻和虛假視頻之間的區(qū)別。為了防范它背后的社會(huì)安全隱患,近日,紐約大學(xué)的研究人員找到了一種區(qū)分真假視頻的可靠方法,他們發(fā)現(xiàn)在虛假視頻中,人物的頭部動(dòng)作和瞳孔顏色通常會(huì)很怪異,當(dāng)人眨眼時(shí),它的眼球會(huì)出現(xiàn)詭異運(yùn)動(dòng)。
什么是Deepfake?
既然要對(duì)抗虛假視頻,就讓我們先從Deepfake講起,下面是它的作品“案例”:
視頻中左側(cè)為真實(shí)視頻,右側(cè)是Deepfake的加工產(chǎn)品。它的工作機(jī)制類似各語(yǔ)言間的互相翻譯,先使用一種稱為深層神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)系統(tǒng)來(lái)檢查一個(gè)人的面部運(yùn)動(dòng),再合成目標(biāo)人物的臉,讓后者作出類似的動(dòng)作。
在生成逼真的視頻前,這個(gè)深層神經(jīng)網(wǎng)絡(luò)需要大量目標(biāo)任務(wù)圖像數(shù)據(jù),圖像的數(shù)量和多元性決定了網(wǎng)絡(luò)的“學(xué)習(xí)”效果——數(shù)據(jù)越多,模擬效果就越逼真。
上圖是對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練、測(cè)試過(guò)程的細(xì)化圖解。看罷視頻,也許有人會(huì)有疑問:為什么Deepfake生成的假臉會(huì)這么自然?這是因?yàn)樵谟?xùn)練期間(Training Phase),我們會(huì)先把目標(biāo)人物A的臉摳出來(lái),定位好五官位置,訓(xùn)練一個(gè)無(wú)論如何扭曲A的臉,最后都能生成正常A臉的網(wǎng)絡(luò)。
一旦上面的網(wǎng)絡(luò)訓(xùn)練好,我們就可以往其中輸入B的臉。這時(shí)在神經(jīng)網(wǎng)絡(luò)看來(lái),B的臉其實(shí)就是經(jīng)扭曲的A的臉,所以它會(huì)直接“糾正”。至于表情和口型等細(xì)節(jié),這在訓(xùn)練過(guò)程中就已經(jīng)學(xué)會(huì)了,數(shù)據(jù)越多,效果越好,相信這點(diǎn)不難理解。
除了上述基礎(chǔ)內(nèi)容,為了確保生成效果,我們還要關(guān)注清晰度、人臉識(shí)別效果、圖片融合等問題。
眨眼/不眨眼?
如果我們?cè)偃ビ^察上面這個(gè)視頻,相信不少細(xì)心的讀者會(huì)發(fā)現(xiàn):在虛假視頻中,人物往往“雙眼無(wú)神”,幾乎不怎么眨眼。這正是目前Deepfake的一個(gè)弱點(diǎn)。
當(dāng)然,這個(gè)弱點(diǎn)并非來(lái)自算法本身,更多的是它使用的數(shù)據(jù)集。健康成年人的眨眼頻率是2-10秒一次,一次眨眼耗費(fèi)十分之一到十分之四秒。在真實(shí)演講視頻中,主講人眨眼是十分正常的現(xiàn)象,但虛假視頻里的假人幾乎個(gè)個(gè)是“不眨眼”大師。
把主持人的臉換成尼古拉斯·凱奇(對(duì)應(yīng)視頻幀)
這是因?yàn)楫?dāng)訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)時(shí),我們用的是來(lái)自網(wǎng)絡(luò)的靜態(tài)圖像。即便是尼古拉斯·凱奇這樣的公眾人物,他的大多數(shù)照片都是睜眼的,除非為了某種藝術(shù)效果,攝影師也不會(huì)公布明星的閉眼照。這意味著數(shù)據(jù)集中的圖像沒法表示眼球的自然運(yùn)動(dòng)方式。
既然數(shù)據(jù)集中幾乎沒有眨眼圖像,那么Deepfake學(xué)會(huì)“眨眼”的概率就幾乎為零。但看到這里也許有人會(huì)有疑問,之前的視頻中明明也出現(xiàn)了眨眼鏡頭,這個(gè)依據(jù)是不是不可信?這就要聯(lián)系人類眨眼的頻率和速度。
上面是真假視頻中人物的眨眼記錄,研究人員統(tǒng)計(jì)了所有視頻中的真人眨眼頻率,并框定了一個(gè)范圍,他們發(fā)現(xiàn)Deepfake視頻中假人的眨眼頻率遠(yuǎn)低于這個(gè)范圍。
如何檢測(cè)眨眼?
有了上述發(fā)現(xiàn),整個(gè)“打假”問題就可以被簡(jiǎn)化為“眨眼檢測(cè)”問題。
論文作者開發(fā)了一種檢測(cè)視頻中人物何時(shí)眨眼的方法。更具體地說(shuō),他們引入了兩個(gè)神經(jīng)網(wǎng)絡(luò),其中第一個(gè)網(wǎng)絡(luò)先掃描視頻的每一幀,檢測(cè)其中是否包含人臉,如果有,自動(dòng)定位到眼部。之后,第一個(gè)網(wǎng)絡(luò)把眼部截圖輸入第二個(gè)網(wǎng)絡(luò),由它利用眼睛的外觀、幾何特征和運(yùn)動(dòng)來(lái)判斷這是睜眼還是閉眼。
下面是第二個(gè)深層神經(jīng)網(wǎng)絡(luò)LRCN的示意圖:
它包含三個(gè)模塊:特征提取、序列學(xué)習(xí)和狀態(tài)預(yù)測(cè)。
其中特征提取模塊(第二行)負(fù)責(zé)把輸入的眼部圖像轉(zhuǎn)成神經(jīng)網(wǎng)絡(luò)可以“理解”的特征,這是個(gè)基于VGG16架構(gòu)的CNN。序列學(xué)習(xí)模塊(第三行)由RNN和LSTM構(gòu)成,LSTM-RNN的使用是為了增加模型的信息存儲(chǔ)量,避免在使用隨時(shí)間反向傳播(BPTT)算法時(shí)出現(xiàn)梯度消失。最后一個(gè)模塊——狀態(tài)預(yù)測(cè),由全連接層構(gòu)成,它輸入LSTM的輸出,并用一個(gè)概率預(yù)測(cè)是睜眼(0)還是閉眼(1)。
根據(jù)實(shí)驗(yàn)結(jié)果,LRCN的準(zhǔn)確率高達(dá)95%。
當(dāng)然,雖然論文只介紹了判斷眨眼頻率的方法,到這里就結(jié)束了。但根據(jù)之前Siwei Lyu的介紹,他們團(tuán)隊(duì)其實(shí)找到了一種更高效的技術(shù),只是為了防止某些人惡意迭代Deepfake,這種方法暫時(shí)需要保密。
論文方法的缺陷
在接受媒體采訪時(shí),Siwei Lyu自己也坦言,論文只提出了一種短期內(nèi)的有效方法,它的“壽命”可能很短,破解方法也很簡(jiǎn)單。
之前我們提到了,算法學(xué)不會(huì)眨眼,主要是因?yàn)闆]有眨眼數(shù)據(jù)。換句話說(shuō),如果我們能提供大量不同眨眼階段的圖像,那么深層神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)眨眼只是時(shí)間問題。更有甚者,為了讓尼古拉斯·凱奇學(xué)會(huì)眨眼,我們不需要派狗仔去偷拍,收集自己的眼部數(shù)據(jù)就夠了。
此外,對(duì)于上面這類視頻,這種方法也沒法起作用。因?yàn)樗煌贒eepfake的全臉移植,而是把假嘴和假聲音(這年頭合成聲音也能造假)移到真人臉上。
這是去年美國(guó)華盛頓大學(xué)研究團(tuán)隊(duì)公布的一項(xiàng)成果,它不需要掃描大量的演講影音資料,也不需要分析不同人說(shuō)出相同句子的嘴形,只需影音素材即可,成本和規(guī)模更小,制作耗時(shí)也更短(17小時(shí))。
因此,全民“打假”依然任重道遠(yuǎn),這種方法只是當(dāng)前邁出的第一步。未來(lái),生成假視頻和檢測(cè)假視頻將成為日常生活中的常見博弈,但這應(yīng)該不是所有人希望看到的。在鼓勵(lì)研究人員開發(fā)更靠譜的檢測(cè)方法的同時(shí),我們應(yīng)該呼吁停止濫用技術(shù)。
除了不要再制作某些低俗、違法視頻,電影工業(yè)也要把它用于正途,不要讓技術(shù)淪為摳圖流量明星的新“捷徑”。
原文標(biāo)題:深度“打假”:通過(guò)眨眼檢測(cè)“deepfake”視頻
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。