服務(wù)熱線：13728883399
wangyp@shangeai.com

從圖像數(shù)據(jù)角度為人臉識別準(zhǔn)確率的提高提出的建議

時間：2018-08-05 09:08:22點擊：384次

編者按:作為目前人工智能界著名的獨角獸,商湯科技在圖像處理和人臉識別技術(shù)領(lǐng)域處在世界前沿的位置。近日,該公司在arXiv上發(fā)表論文The Devil of Face Recognition is in the Noise,從圖像數(shù)據(jù)角度為人臉識別準(zhǔn)確率的提高提出了建議。

在進行人臉識別的任務(wù)時,數(shù)據(jù)集是其中的關(guān)鍵。從早期的FERET數(shù)據(jù)集到最近的LFW、MegaFace和MS-Celeb-1M,數(shù)據(jù)集在新技術(shù)的發(fā)展上有著不可或缺的作用。這些數(shù)據(jù)集不僅僅提供了更加豐富的資源,而且數(shù)據(jù)規(guī)模也有了非常大的提高例如,MS-Celeb-1M包含大約1000萬張圖片,其中有10萬個人物,遠遠超過只有14126張圖像、1199個人的FERET數(shù)據(jù)集。大型數(shù)據(jù)集,再加上深度學(xué)習(xí)技術(shù),讓人臉識別在這幾年取得了巨大的成功。

然而,大型數(shù)據(jù)集不可避免地會受到標(biāo)簽噪聲的影響。這一問題很普遍,因為經(jīng)過良好標(biāo)注的大型數(shù)據(jù)集得來的成本非常高昂,所以這也促使科學(xué)家們尋找便宜但并不完美的替代方法。一種常見的方法是根據(jù)人名在網(wǎng)絡(luò)上查找他們的照片,再用自動或半自動方法對標(biāo)簽進行清理。另外還有些方法會在社交網(wǎng)站上手機照片。上述方法都是擴大訓(xùn)練樣本的簡便方法,但同時也會帶來標(biāo)簽噪聲,給訓(xùn)練和模型帶來負面效果。圖1就是含有標(biāo)簽噪聲的一些樣本:

圖1

可以看到,MegaFace和MS-Celeb-1M都含有相當(dāng)多的錯誤標(biāo)簽,有些噪聲標(biāo)簽可以輕易消除,但是大部分想要消除還是很困難的。在MegaFace中還有很多重復(fù)的圖像(最后一行)。

所以,本文的首要目標(biāo)是探究標(biāo)簽噪聲的來源,以及在深度卷積神經(jīng)網(wǎng)絡(luò)中,這些噪聲會給人臉識別造成何種后果。我們主要考慮的問題有:想要達到清理數(shù)據(jù)的目的,需要多少噪聲樣本?噪聲和最終的模型性能之間有何種關(guān)系?標(biāo)注人臉的最佳策略是什么?對這些問題的理解將有助于我們設(shè)計更好的數(shù)據(jù)收集和清理方法,同時防止在訓(xùn)練過程中造成危險,以形成能應(yīng)對現(xiàn)實問題的強大算法。

其次,本文的第二目標(biāo)是為社區(qū)建立一個干凈的人臉識別數(shù)據(jù)集。該數(shù)據(jù)集能幫助研究人員訓(xùn)練更好的模型,并且進一步了解噪聲和人臉識別性能之間的關(guān)系。

現(xiàn)存數(shù)據(jù)有多少噪音?

這一部分中我們會介紹幾種流行的數(shù)據(jù)集,之后會分析他們各自的信噪比。目前用于人臉識別研究的數(shù)據(jù)集大致如下表所示:

了解各數(shù)據(jù)集所含數(shù)據(jù)后,我們想大概估計每個數(shù)據(jù)集中的噪聲分布。但由于數(shù)據(jù)集體積過大,想計算確切的數(shù)字不那么容易,所以我們隨機選擇了數(shù)據(jù)集的子集,然后手動將它們分為三個類別:“正確識別”、“待定”和“錯誤識別”。

從各數(shù)據(jù)集中抽取一部分?jǐn)?shù)據(jù)后,大概情況如圖2a所示:

圖2a

可以看出,數(shù)據(jù)規(guī)模越大,信噪比越大。

之后,我們又對兩個最大的數(shù)據(jù)集——MS-Celeb-1M和MegaFace進行噪聲分布分析。我們首先根據(jù)圖片數(shù)量對數(shù)據(jù)集中人物進行分類,最終生成了6個類別,通過下圖可以看出每個類別的信噪比。

可以看出,大多數(shù)目標(biāo)只有很少的圖像與之對應(yīng),這一情況在MegaFace上更明顯,因為它是用自動方法收集的數(shù)據(jù)。與MS-Celeb-1M相比,MegaFace的噪聲似乎更少,但是我們發(fā)現(xiàn)在MegaFace干凈的數(shù)據(jù)集中,有很多重復(fù)圖像。

打造自己的清潔數(shù)據(jù)集

通過分析我們得出,一個含有超過一百萬張圖片的數(shù)據(jù)集,信噪比通常高達30%。為了創(chuàng)建一個干凈的數(shù)據(jù)集,我們不僅在收集人臉數(shù)據(jù)時找尋更干凈、更多樣的來源,更重要的是找到一種高效的數(shù)據(jù)標(biāo)記方法。

從IMDb中搜集人臉圖像

被大家廣泛使用的ImageNet是直接從谷歌圖片中搜索來圖像的,其他數(shù)據(jù)集也大多如此,但這樣做的壞處是存在數(shù)據(jù)偏見。從圖3中我們可以看出,從搜索引擎中搜到的圖片背景都很簡單,光線充足,大都是圖片的前景。而在實際的視頻中,人臉圖像并沒有這么清晰。另外,從搜索引擎中得到的圖片通常查全率很低,經(jīng)過研究我們發(fā)現(xiàn),在200張照片中,平均查全率只有40%。

圖3

在這項研究中,我們從IMDb網(wǎng)站搜集圖像,因為該網(wǎng)站結(jié)構(gòu)化程度更高,每個人物的照片種類也比較多,包括官方照片、生活照、電影劇照等等。另外,這里的查全率更高達90%。最終我們收集了170萬張名人的照片,其中有5900位明星。

標(biāo)記處理

我們對數(shù)據(jù)進行了清洗,但是清洗的方法有以下三種:

第一種,志愿者們在圖片中圈出目標(biāo)人物;第二步,在三個候選圖像中,志愿者們要選擇對應(yīng)目標(biāo)圖像的那張圖片;第三步,直接進行判斷,Yes or No。

最終,三種方法的ROC曲線如圖:

可以看到第一種方法的F1分?jǐn)?shù)最高,誤報率不超過10%。第三種方法的效果最差。另外,我們還發(fā)現(xiàn)一個有趣的現(xiàn)象,即當(dāng)志愿者標(biāo)注的時間越長,標(biāo)注的準(zhǔn)確性越高。

實驗過程

實驗分為四個部分。首先,我們在提出的數(shù)據(jù)集上添加模擬噪聲,進行控制變量研究。這有助于我們觀察在由噪音的情況下性能的下降。

之后,我們會在兩個現(xiàn)有數(shù)據(jù)集上進一步實驗,探索噪音的影響。

第三,將我們的數(shù)據(jù)集和其他傳統(tǒng)數(shù)據(jù)集進行對比,驗證其有效性。

最后,將在我們數(shù)據(jù)集上訓(xùn)練的模型和其他模型進行對比。最終結(jié)果如下表:

我們的模型IMDb-Face得到了目前的最高分?jǐn)?shù)。

結(jié)語

與目前流行的專注于復(fù)雜損失和CNN結(jié)構(gòu)的研究不同,我們從數(shù)據(jù)的角度來研究人臉識別問題,尤其是對標(biāo)記噪聲的來源有了一定認(rèn)識。最終我們新建的IMDb-Face數(shù)據(jù)集也成為了打造大型干凈數(shù)據(jù)集的重要基礎(chǔ)。

原文標(biāo)題:商湯科技:圖片噪聲才是人臉識別背后的惡魔

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

標(biāo)簽: