服務(wù)熱線：13728883399
wangyp@shangeai.com

到底是什么讓機(jī)器學(xué)習(xí)達(dá)不到我們的期待呢?

時(shí)間：2018-03-27 13:56:18點(diǎn)擊：488次

機(jī)器學(xué)習(xí)雖然能夠在很多地方顯示出強(qiáng)大的力量,同時(shí)也被集成到了很多的商業(yè)流程中去,但它依舊有一些不完美的地方,今天我們就通過一些典型的例子來深刻感受一下機(jī)器學(xué)習(xí)的局限性。

人臉識別

目前最先進(jìn)的人臉識別系統(tǒng)可以達(dá)到99%的準(zhǔn)確率。作為使用最為廣泛的機(jī)器學(xué)習(xí)算法,人臉識別得到了飛速的發(fā)展,但在這背后需要我們對幾件事情保持清醒。首先,99%的正確率是來自與驗(yàn)證數(shù)據(jù)集的測試結(jié)果,而驗(yàn)證數(shù)據(jù)集則來自于與訓(xùn)練數(shù)據(jù)集相同的數(shù)據(jù)集,并從中隨機(jī)抽取。這就意味著數(shù)據(jù)的均值和方差與訓(xùn)練數(shù)據(jù)十分相似。但當(dāng)我們將系統(tǒng)置于真實(shí)情況下時(shí),實(shí)際照片的特性與訓(xùn)練數(shù)據(jù)不可能相同,那么實(shí)際的精度很有可能低于99%。

模型有時(shí)候會(huì)將其他的東西識別成人臉(假陽性)或者忘卻漏掉了人臉(假陰性)。不同的模型在不同的階段有著不同的表現(xiàn),在使用時(shí)你需要確定你需要什么樣層次的模型,給出多高的精度是可以接受的。在選擇權(quán)衡算法時(shí),一個(gè)模型在檢測幾千張臉時(shí)錯(cuò)檢幾十張,而另一個(gè)模型可以將準(zhǔn)確率提高一半但需要10x的處理時(shí)間和運(yùn)算,那么前者將會(huì)是不錯(cuò)的選擇。剩下的可以交給人類來做,我們對于少量假陽性和假陰性的樣本有著非?？斓臏?zhǔn)確識別能力。

下面是幾個(gè)關(guān)于模型訓(xùn)練的數(shù)據(jù)清理經(jīng)驗(yàn)。最好的當(dāng)然是保證每一張臉都可以很容易地看到,沒有模糊遮擋,也沒有很奇怪的角度。同時(shí)圖像要保持適度的分辨率,分辨率太高的圖像容易引入造成算法失效的噪音。

光學(xué)字符識別(OCR)

目前最先進(jìn)的光學(xué)字符識別系統(tǒng)對于文件的識別與排版已經(jīng)有十分優(yōu)異?；谶吘墮z測、計(jì)算機(jī)視覺與字符識別的技術(shù)使得OCR不斷改進(jìn),對于掃描文檔幾乎沒有障礙了。

但目前OCR還不能夠勝任的是非掃描文件的識別,這也是驗(yàn)證碼還能作為網(wǎng)站人類識別的功能存在。人類對于字母識別有著無與倫比的能力,無論是模糊、扭曲、顏色不同都不在話下,而計(jì)算機(jī)望塵莫及。

OCR很有用但對于一些場景下使用不當(dāng)就會(huì)文不對題,下面這張球賽的截頻就是一個(gè)典型的例子。

上圖如果用OCR識別很有可能生成這樣的一大串:

[0] PREMIER LEAGUE [1] TOT 2 [2] M [3] U [4] 0 [5] 36:2 [6] 4 [7] SPORTS [8] NEW 0 BUR 0 [9] HALFTIME [10] LIVE [11] NBCSN

如果沒有上下文語境我們很難明白識別出的意思,哪里是隊(duì)名哪里是logo?這會(huì)造成很大的混亂。

我們不應(yīng)該像使用通用OCR一樣來直接簡單粗暴的套用,而是需要針對情況進(jìn)行分析。對于上面的例子如果我們想要追蹤球員,那么目標(biāo)追蹤的方法會(huì)很好,但如果想要追蹤比賽分?jǐn)?shù)和時(shí)間,那么將OCR限定在固定區(qū)域中會(huì)是不錯(cuò)的選擇。

視頻

視頻是一種很神奇的存在,雖然很多機(jī)器學(xué)習(xí)模型能在視頻上實(shí)現(xiàn)和照片一樣的效果,但總會(huì)有意想不到的情況。數(shù)字世界的解碼和封裝總是與視頻的壓縮率和長寬比耦合在一起。

同時(shí)考慮到處理時(shí)間和算力的限制,對視頻進(jìn)行處理時(shí)我們往往選擇低分辨的格式。當(dāng)你選擇低分辨率或者較高的壓縮時(shí),視頻并不會(huì)是一組連續(xù)的靜態(tài)圖片,所以計(jì)算機(jī)視覺的識別方法將會(huì)與靜態(tài)圖片中的識別方法有很大的差別。

為了說明這一情況我們可以隨便點(diǎn)開一個(gè)視頻并暫停,如下圖所示。人們的臉變得模糊、角度和整體形象都顯得和靜態(tài)下十分不同。

下面應(yīng)該是計(jì)算機(jī)看到的人臉區(qū)域:

你能從中認(rèn)出圖中的主角是誰嗎?如果對你來說很困難那么對于計(jì)算機(jī)來說也不容易!

對于人類來說,在視頻中識別人臉很容易,但要把獨(dú)立的幀抽取出來你會(huì)發(fā)現(xiàn)圖像質(zhì)量出乎意料的差。

但我們也不能否定機(jī)器學(xué)習(xí),因?yàn)闄C(jī)器學(xué)習(xí)在大多數(shù)情況下對于視頻的自動(dòng)化分類和標(biāo)注時(shí)十分重要的手段。我們需要明白的是我們期望得到的結(jié)果以及如何去修正模型實(shí)際的表現(xiàn)。如果一個(gè)龐大的全球名人識別模型對一段視屏進(jìn)行檢測可能會(huì)出現(xiàn)很多假陽性的結(jié)果,但是如果使用一個(gè)僅僅包含幾個(gè)著名人士的模型來檢測則會(huì)得到好得多的結(jié)果。如果你的模型表現(xiàn)不好,你還可以從數(shù)據(jù)的角度來改進(jìn),譬如說某個(gè)節(jié)目中人臉出現(xiàn)的位置就可以作為先驗(yàn)知識來幫助機(jī)器提高正確率。我們需要嘗試不同的模型和工作流總能取得成功。

如何成功的應(yīng)用機(jī)器學(xué)習(xí)?

機(jī)器學(xué)習(xí)十分強(qiáng)大,有人將它應(yīng)用于檢測學(xué)術(shù)造假的論文,也有人將它應(yīng)用于人臉身份認(rèn)證、不良內(nèi)容的裸露檢測等。同樣也用于為用戶推薦商品和服務(wù)的推薦引擎上,在這樣的場景下假陽性和假陰性的推薦結(jié)果不會(huì)造成太大影響,事實(shí)上一些異常推薦還為用戶探索新事物提供了條件。

還有改善搜索引擎的個(gè)性化能力,檢測農(nóng)作物動(dòng)物的疾病以及預(yù)測產(chǎn)量等等方面。機(jī)器學(xué)習(xí)將會(huì)有無數(shù)的應(yīng)用,我們對它充滿期待,但同時(shí)也會(huì)把握住期待的方向讓機(jī)器學(xué)習(xí)正常運(yùn)轉(zhuǎn)。

原文標(biāo)題:靈魂拷問:是什么讓機(jī)器學(xué)習(xí)達(dá)不到我們的期待呢?(開頭有個(gè)大事兒)

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

標(biāo)簽:

上一篇：vivo X20全面測評不再是“低配”
下一篇：小米MIX 2S先于小米7推出，并且會(huì)是國產(chǎn)機(jī)首發(fā)驍龍845

打印

伊人久久大香线蕉综合BD高清,变态另类天堂无码,大又大又粗又硬又爽少妇毛片,中文字幕有码一区二区三区

到底是什么讓機(jī)器學(xué)習(xí)達(dá)不到我們的期待呢?