機(jī)器學(xué)習(xí)雖然能夠在很多地方顯示出強(qiáng)大的力量,同時(shí)也被集成到了很多的商業(yè)流程中去,但它依舊有一些不完美的地方,今天我們就通過(guò)一些典型的例子來(lái)深刻感受一下機(jī)器學(xué)習(xí)的局限性。
目前最先進(jìn)的人臉識(shí)別系統(tǒng)可以達(dá)到99%的準(zhǔn)確率。作為使用最為廣泛的機(jī)器學(xué)習(xí)算法,人臉識(shí)別得到了飛速的發(fā)展,但在這背后需要我們對(duì)幾件事情保持清醒。首先,99%的正確率是來(lái)自與驗(yàn)證數(shù)據(jù)集的測(cè)試結(jié)果,而驗(yàn)證數(shù)據(jù)集則來(lái)自于與訓(xùn)練數(shù)據(jù)集相同的數(shù)據(jù)集,并從中隨機(jī)抽取。這就意味著數(shù)據(jù)的均值和方差與訓(xùn)練數(shù)據(jù)十分相似。但當(dāng)我們將系統(tǒng)置于真實(shí)情況下時(shí),實(shí)際照片的特性與訓(xùn)練數(shù)據(jù)不可能相同,那么實(shí)際的精度很有可能低于99%。
模型有時(shí)候會(huì)將其他的東西識(shí)別成人臉(假陽(yáng)性)或者忘卻漏掉了人臉(假陰性)。不同的模型在不同的階段有著不同的表現(xiàn),在使用時(shí)你需要確定你需要什么樣層次的模型,給出多高的精度是可以接受的。在選擇權(quán)衡算法時(shí),一個(gè)模型在檢測(cè)幾千張臉時(shí)錯(cuò)檢幾十張,而另一個(gè)模型可以將準(zhǔn)確率提高一半但需要10x的處理時(shí)間和運(yùn)算,那么前者將會(huì)是不錯(cuò)的選擇。剩下的可以交給人類來(lái)做,我們對(duì)于少量假陽(yáng)性和假陰性的樣本有著非常快的準(zhǔn)確識(shí)別能力。
下面是幾個(gè)關(guān)于模型訓(xùn)練的數(shù)據(jù)清理經(jīng)驗(yàn)。最好的當(dāng)然是保證每一張臉都可以很容易地看到,沒(méi)有模糊遮擋,也沒(méi)有很奇怪的角度。同時(shí)圖像要保持適度的分辨率,分辨率太高的圖像容易引入造成算法失效的噪音。
光學(xué)字符識(shí)別(OCR)
目前最先進(jìn)的光學(xué)字符識(shí)別系統(tǒng)對(duì)于文件的識(shí)別與排版已經(jīng)有十分優(yōu)異。基于邊緣檢測(cè)、計(jì)算機(jī)視覺(jué)與字符識(shí)別的技術(shù)使得OCR不斷改進(jìn),對(duì)于掃描文檔幾乎沒(méi)有障礙了。
但目前OCR還不能夠勝任的是非掃描文件的識(shí)別,這也是驗(yàn)證碼還能作為網(wǎng)站人類識(shí)別的功能存在。人類對(duì)于字母識(shí)別有著無(wú)與倫比的能力,無(wú)論是模糊、扭曲、顏色不同都不在話下,而計(jì)算機(jī)望塵莫及。
OCR很有用但對(duì)于一些場(chǎng)景下使用不當(dāng)就會(huì)文不對(duì)題,下面這張球賽的截頻就是一個(gè)典型的例子。
上圖如果用OCR識(shí)別很有可能生成這樣的一大串:
[0] PREMIER LEAGUE [1] TOT 2 [2] M [3] U [4] 0 [5] 36:2 [6] 4 [7] SPORTS [8] NEW 0 BUR 0 [9] HALFTIME [10] LIVE [11] NBCSN
如果沒(méi)有上下文語(yǔ)境我們很難明白識(shí)別出的意思,哪里是隊(duì)名哪里是logo?這會(huì)造成很大的混亂。
我們不應(yīng)該像使用通用OCR一樣來(lái)直接簡(jiǎn)單粗暴的套用,而是需要針對(duì)情況進(jìn)行分析。對(duì)于上面的例子如果我們想要追蹤球員,那么目標(biāo)追蹤的方法會(huì)很好,但如果想要追蹤比賽分?jǐn)?shù)和時(shí)間,那么將OCR限定在固定區(qū)域中會(huì)是不錯(cuò)的選擇。
視 頻
視頻是一種很神奇的存在,雖然很多機(jī)器學(xué)習(xí)模型能在視頻上實(shí)現(xiàn)和照片一樣的效果,但總會(huì)有意想不到的情況。數(shù)字世界的解碼和封裝總是與視頻的壓縮率和長(zhǎng)寬比耦合在一起。
同時(shí)考慮到處理時(shí)間和算力的限制,對(duì)視頻進(jìn)行處理時(shí)我們往往選擇低分辨的格式。當(dāng)你選擇低分辨率或者較高的壓縮時(shí),視頻并不會(huì)是一組連續(xù)的靜態(tài)圖片,所以計(jì)算機(jī)視覺(jué)的識(shí)別方法將會(huì)與靜態(tài)圖片中的識(shí)別方法有很大的差別。
為了說(shuō)明這一情況我們可以隨便點(diǎn)開(kāi)一個(gè)視頻并暫停,如下圖所示。人們的臉變得模糊、角度和整體形象都顯得和靜態(tài)下十分不同。
下面應(yīng)該是計(jì)算機(jī)看到的人臉區(qū)域:
你能從中認(rèn)出圖中的主角是誰(shuí)嗎?如果對(duì)你來(lái)說(shuō)很困難那么對(duì)于計(jì)算機(jī)來(lái)說(shuō)也不容易!
對(duì)于人類來(lái)說(shuō),在視頻中識(shí)別人臉很容易,但要把獨(dú)立的幀抽取出來(lái)你會(huì)發(fā)現(xiàn)圖像質(zhì)量出乎意料的差。
但我們也不能否定機(jī)器學(xué)習(xí),因?yàn)闄C(jī)器學(xué)習(xí)在大多數(shù)情況下對(duì)于視頻的自動(dòng)化分類和標(biāo)注時(shí)十分重要的手段。我們需要明白的是我們期望得到的結(jié)果以及如何去修正模型實(shí)際的表現(xiàn)。如果一個(gè)龐大的全球名人識(shí)別模型對(duì)一段視屏進(jìn)行檢測(cè)可能會(huì)出現(xiàn)很多假陽(yáng)性的結(jié)果,但是如果使用一個(gè)僅僅包含幾個(gè)著名人士的模型來(lái)檢測(cè)則會(huì)得到好得多的結(jié)果。如果你的模型表現(xiàn)不好,你還可以從數(shù)據(jù)的角度來(lái)改進(jìn),譬如說(shuō)某個(gè)節(jié)目中人臉出現(xiàn)的位置就可以作為先驗(yàn)知識(shí)來(lái)幫助機(jī)器提高正確率。我們需要嘗試不同的模型和工作流總能取得成功。
如何成功的應(yīng)用機(jī)器學(xué)習(xí)?
機(jī)器學(xué)習(xí)十分強(qiáng)大,有人將它應(yīng)用于檢測(cè)學(xué)術(shù)造假的論文,也有人將它應(yīng)用于人臉身份認(rèn)證、不良內(nèi)容的裸露檢測(cè)等。同樣也用于為用戶推薦商品和服務(wù)的推薦引擎上,在這樣的場(chǎng)景下假陽(yáng)性和假陰性的推薦結(jié)果不會(huì)造成太大影響,事實(shí)上一些異常推薦還為用戶探索新事物提供了條件。
還有改善搜索引擎的個(gè)性化能力,檢測(cè)農(nóng)作物動(dòng)物的疾病以及預(yù)測(cè)產(chǎn)量等等方面。機(jī)器學(xué)習(xí)將會(huì)有無(wú)數(shù)的應(yīng)用,我們對(duì)它充滿期待,但同時(shí)也會(huì)把握住期待的方向讓機(jī)器學(xué)習(xí)正常運(yùn)轉(zhuǎn)。
原文標(biāo)題:靈魂拷問(wèn):是什么讓機(jī)器學(xué)習(xí)達(dá)不到我們的期待呢?(開(kāi)頭有個(gè)大事兒)
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門(mén)創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。