服務(wù)熱線：13728883399
wangyp@shangeai.com

什么是Deepfake？為什么Deepfake生成的假臉會這么自然？

時間：2018-09-03 08:46:01點擊：865次

編者按:自換臉工具Deepfake風(fēng)行全球后,人們開始意識到除了詐騙短信、詐騙電話,現(xiàn)在連視頻都能“詐騙”了。為了應(yīng)對這種由新技術(shù)帶來的犯罪風(fēng)險,近來研究人員一直在努力發(fā)掘虛假視頻和真實視頻的區(qū)別,而就在本月初,美國國防部正式宣布了紐約大學(xué)開發(fā)的一個檢測工具,他們找到了GAN生成視頻的一些明顯特征。

當(dāng)時美國國防部把這項技術(shù)譽為人類對于AI的軍備競賽的一個開端,近日,這項技術(shù)的開發(fā)人員接受了媒體采訪。讓我們結(jié)合報道和論文,近距離看看他們的方法究竟怎樣。

Deepfake當(dāng)前的缺陷是沒法找到足夠閉著眼睛的圖像

隨著2018年年中將近,美國大選活動也開始逐漸升溫,在諸多宣傳中,一種新形式的虛假信息開始在社交媒體上廣泛傳播。這種生成虛假視頻的技術(shù)叫做“Deepfake”,它能把視頻中的臉換成其他人的臉,同時保持臉部肌肉運動和諧,口型和聲音匹配。

結(jié)合政治宣傳,這意味著任何人都能“惡搞”候選人,制作他們“演講”“活動”的假視頻。

由于這項技術(shù)十分新穎,效果又格外出色,普通人如果不仔細看,可能無法分辨真實視頻和虛假視頻之間的區(qū)別。為了防范它背后的社會安全隱患,近日,紐約大學(xué)的研究人員找到了一種區(qū)分真假視頻的可靠方法,他們發(fā)現(xiàn)在虛假視頻中,人物的頭部動作和瞳孔顏色通常會很怪異,當(dāng)人眨眼時,它的眼球會出現(xiàn)詭異運動。

什么是Deepfake?

既然要對抗虛假視頻,就讓我們先從Deepfake講起,下面是它的作品“案例”:

視頻中左側(cè)為真實視頻,右側(cè)是Deepfake的加工產(chǎn)品。它的工作機制類似各語言間的互相翻譯,先使用一種稱為深層神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)系統(tǒng)來檢查一個人的面部運動,再合成目標人物的臉,讓后者作出類似的動作。

在生成逼真的視頻前,這個深層神經(jīng)網(wǎng)絡(luò)需要大量目標任務(wù)圖像數(shù)據(jù),圖像的數(shù)量和多元性決定了網(wǎng)絡(luò)的“學(xué)習(xí)”效果——數(shù)據(jù)越多,模擬效果就越逼真。

上圖是對神經(jīng)網(wǎng)絡(luò)訓(xùn)練、測試過程的細化圖解?？戳T視頻,也許有人會有疑問:為什么Deepfake生成的假臉會這么自然?這是因為在訓(xùn)練期間(Training Phase),我們會先把目標人物A的臉摳出來,定位好五官位置,訓(xùn)練一個無論如何扭曲A的臉,最后都能生成正常A臉的網(wǎng)絡(luò)。

一旦上面的網(wǎng)絡(luò)訓(xùn)練好,我們就可以往其中輸入B的臉。這時在神經(jīng)網(wǎng)絡(luò)看來,B的臉其實就是經(jīng)扭曲的A的臉,所以它會直接“糾正”。至于表情和口型等細節(jié),這在訓(xùn)練過程中就已經(jīng)學(xué)會了,數(shù)據(jù)越多,效果越好,相信這點不難理解。

除了上述基礎(chǔ)內(nèi)容,為了確保生成效果,我們還要關(guān)注清晰度、人臉識別效果、圖片融合等問題。

眨眼/不眨眼?

如果我們再去觀察上面這個視頻,相信不少細心的讀者會發(fā)現(xiàn):在虛假視頻中,人物往往“雙眼無神”,幾乎不怎么眨眼。這正是目前Deepfake的一個弱點。

當(dāng)然,這個弱點并非來自算法本身,更多的是它使用的數(shù)據(jù)集。健康成年人的眨眼頻率是2-10秒一次,一次眨眼耗費十分之一到十分之四秒。在真實演講視頻中,主講人眨眼是十分正常的現(xiàn)象,但虛假視頻里的假人幾乎個個是“不眨眼”大師。

把主持人的臉換成尼古拉斯·凱奇(對應(yīng)視頻幀)

這是因為當(dāng)訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)時,我們用的是來自網(wǎng)絡(luò)的靜態(tài)圖像。即便是尼古拉斯·凱奇這樣的公眾人物,他的大多數(shù)照片都是睜眼的,除非為了某種藝術(shù)效果,攝影師也不會公布明星的閉眼照。這意味著數(shù)據(jù)集中的圖像沒法表示眼球的自然運動方式。

既然數(shù)據(jù)集中幾乎沒有眨眼圖像,那么Deepfake學(xué)會“眨眼”的概率就幾乎為零。但看到這里也許有人會有疑問,之前的視頻中明明也出現(xiàn)了眨眼鏡頭,這個依據(jù)是不是不可信?這就要聯(lián)系人類眨眼的頻率和速度。

上面是真假視頻中人物的眨眼記錄,研究人員統(tǒng)計了所有視頻中的真人眨眼頻率,并框定了一個范圍,他們發(fā)現(xiàn)Deepfake視頻中假人的眨眼頻率遠低于這個范圍。

如何檢測眨眼?

有了上述發(fā)現(xiàn),整個“打假”問題就可以被簡化為“眨眼檢測”問題。

論文作者開發(fā)了一種檢測視頻中人物何時眨眼的方法。更具體地說,他們引入了兩個神經(jīng)網(wǎng)絡(luò),其中第一個網(wǎng)絡(luò)先掃描視頻的每一幀,檢測其中是否包含人臉,如果有,自動定位到眼部。之后,第一個網(wǎng)絡(luò)把眼部截圖輸入第二個網(wǎng)絡(luò),由它利用眼睛的外觀、幾何特征和運動來判斷這是睜眼還是閉眼。

下面是第二個深層神經(jīng)網(wǎng)絡(luò)LRCN的示意圖:

它包含三個模塊:特征提取、序列學(xué)習(xí)和狀態(tài)預(yù)測。

其中特征提取模塊(第二行)負責(zé)把輸入的眼部圖像轉(zhuǎn)成神經(jīng)網(wǎng)絡(luò)可以“理解”的特征,這是個基于VGG16架構(gòu)的CNN。序列學(xué)習(xí)模塊(第三行)由RNN和LSTM構(gòu)成,LSTM-RNN的使用是為了增加模型的信息存儲量,避免在使用隨時間反向傳播(BPTT)算法時出現(xiàn)梯度消失。最后一個模塊——狀態(tài)預(yù)測,由全連接層構(gòu)成,它輸入LSTM的輸出,并用一個概率預(yù)測是睜眼(0)還是閉眼(1)。

根據(jù)實驗結(jié)果,LRCN的準確率高達95%。

當(dāng)然,雖然論文只介紹了判斷眨眼頻率的方法,到這里就結(jié)束了。但根據(jù)之前Siwei Lyu的介紹,他們團隊其實找到了一種更高效的技術(shù),只是為了防止某些人惡意迭代Deepfake,這種方法暫時需要保密。

論文方法的缺陷

在接受媒體采訪時,Siwei Lyu自己也坦言,論文只提出了一種短期內(nèi)的有效方法,它的“壽命”可能很短,破解方法也很簡單。

之前我們提到了,算法學(xué)不會眨眼,主要是因為沒有眨眼數(shù)據(jù)。換句話說,如果我們能提供大量不同眨眼階段的圖像,那么深層神經(jīng)網(wǎng)絡(luò)學(xué)會眨眼只是時間問題。更有甚者,為了讓尼古拉斯·凱奇學(xué)會眨眼,我們不需要派狗仔去偷拍,收集自己的眼部數(shù)據(jù)就夠了。

此外,對于上面這類視頻,這種方法也沒法起作用。因為它不同于Deepfake的全臉移植,而是把假嘴和假聲音(這年頭合成聲音也能造假)移到真人臉上。

這是去年美國華盛頓大學(xué)研究團隊公布的一項成果,它不需要掃描大量的演講影音資料,也不需要分析不同人說出相同句子的嘴形,只需影音素材即可,成本和規(guī)模更小,制作耗時也更短(17小時)。

因此,全民“打假”依然任重道遠,這種方法只是當(dāng)前邁出的第一步。未來,生成假視頻和檢測假視頻將成為日常生活中的常見博弈,但這應(yīng)該不是所有人希望看到的。在鼓勵研究人員開發(fā)更靠譜的檢測方法的同時,我們應(yīng)該呼吁停止濫用技術(shù)。

除了不要再制作某些低俗、違法視頻,電影工業(yè)也要把它用于正途,不要讓技術(shù)淪為摳圖流量明星的新“捷徑”。

原文標題:深度“打假”:通過眨眼檢測“deepfake”視頻

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

標簽:

上一篇：水滴屏上演新潮流,下一波趨勢是“小圈圈”？
下一篇：探討生物識別的現(xiàn)狀與未來！

打印

伊人久久大香线蕉综合BD高清,变态另类天堂无码,大又大又粗又硬又爽少妇毛片,中文字幕有码一区二区三区

什么是Deepfake？為什么Deepfake生成的假臉會這么自然？

什么是Deepfake？為什么Deepfake生成的假臉會這么自然？