在前面的文章中,我們向大家展示了使用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)一些諸如物體識(shí)別、數(shù)字化識(shí)別等功能。本篇文章我們將向大家展示視覺(jué)處理方面更實(shí)際的一個(gè)Demo,在PowerVR GPU上運(yùn)行AI和機(jī)器學(xué)習(xí)算法。這個(gè)Demo展示了我們?nèi)绾问褂糜布?比如GPU)的計(jì)算能力來(lái)獲取攝像頭采集的視頻并采用多個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNNs)進(jìn)行處理。
經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)算法處理后會(huì)在畫(huà)面中標(biāo)出每張人臉的位置,并且提供“標(biāo)識(shí)符”指向每張人臉。我們采用FDDB庫(kù)(包括5171張人臉圖片)和VGG庫(kù)(包括2622張不同識(shí)別特征的圖片)對(duì)網(wǎng)絡(luò)進(jìn)行了訓(xùn)練。下面的視頻展示了這個(gè)Demo的運(yùn)行情況,還使用了PowerVR深度神經(jīng)網(wǎng)絡(luò)(DNN)庫(kù),這兩者都是由PowerVR研究團(tuán)隊(duì)和視覺(jué)團(tuán)隊(duì)開(kāi)發(fā)的。這個(gè)深度神經(jīng)網(wǎng)絡(luò)庫(kù)采用高級(jí)指令、權(quán)值和偏差并轉(zhuǎn)換成GPU可以處理的數(shù)據(jù),然后我們繼續(xù)采用OpenCL庫(kù)對(duì)這個(gè)網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)處理。
這個(gè)Demo運(yùn)行在宏碁(Acer)筆記本上,集成的是聯(lián)發(fā)科(MTK)MT8173 SoC和PowerVR GX6250 GPU,運(yùn)行頻率在455MHz。筆記本電池充滿(mǎn)電后開(kāi)始運(yùn)行人臉識(shí)別Demo,總共持續(xù)了將近六個(gè)小時(shí),充分體現(xiàn)了PowerVR GPU的功率效率和性能。
從上面的圖片中我們可以看出這個(gè)Demo能夠同時(shí)識(shí)別三個(gè)用戶(hù)的特征。
這個(gè)Demo展示的是一個(gè)實(shí)際應(yīng)用的案例,人臉檢測(cè)和識(shí)別需要融入我們的日常生活中。界面上它模仿了一個(gè)TV系統(tǒng),識(shí)別用戶(hù)的同時(shí)還能找出適合他們的電影內(nèi)容。
首先我們使用GoogLeNet單鏡頭檢測(cè)(SSD)神經(jīng)網(wǎng)絡(luò)識(shí)別網(wǎng)絡(luò)攝像機(jī)采集畫(huà)面中的每一張人臉,會(huì)將每一張人臉用方形框標(biāo)記出來(lái)。然后我們將臉部?jī)?nèi)容隔離開(kāi),在同一個(gè)位置運(yùn)行另一個(gè)神經(jīng)網(wǎng)絡(luò),這樣就會(huì)返回給我們一個(gè)“標(biāo)識(shí)符”,這個(gè)標(biāo)識(shí)符類(lèi)似于每張人臉被采集的畫(huà)面幀,這同時(shí)也意味著向系統(tǒng)添加標(biāo)記識(shí)別已經(jīng)不重要了,從上面的視頻中大家可以看到我們是如何識(shí)別每一張之前沒(méi)有訓(xùn)練過(guò)的人臉圖像,如何使用標(biāo)識(shí)符在下次能夠直接識(shí)別出對(duì)應(yīng)的人臉圖像。
下面是這個(gè)Demo的設(shè)計(jì)框圖:
我們可以想象到這項(xiàng)技術(shù)的多種用途,比如智能TV,其本身已經(jīng)具備運(yùn)行神經(jīng)網(wǎng)絡(luò)的硬件基礎(chǔ),用戶(hù)可以采用人臉識(shí)別進(jìn)行注冊(cè),然后系統(tǒng)會(huì)自動(dòng)加載用戶(hù)喜歡的電影內(nèi)容、App應(yīng)用和快捷方式等,這無(wú)疑會(huì)大大提升用戶(hù)體驗(yàn)效果。
另一個(gè)潛在的用途是實(shí)時(shí)檢測(cè)用戶(hù)是否正在看著設(shè)備,從而可以持續(xù)跟蹤用戶(hù)對(duì)哪些內(nèi)容感興趣以及用戶(hù)的習(xí)慣等,這種功能可以用于市場(chǎng)營(yíng)銷(xiāo)或者個(gè)性化設(shè)計(jì),無(wú)需用戶(hù)下意識(shí)的關(guān)注。
另一個(gè)應(yīng)用的實(shí)例是智能門(mén)鈴,通過(guò)人臉識(shí)別確定每一個(gè)到訪(fǎng)者,并且可以為每個(gè)用戶(hù)自定義提示音,目前這些相似產(chǎn)品已經(jīng)是市場(chǎng)上存在,比如基于A(yíng)I的安全攝像頭系統(tǒng)等。
這只是一個(gè)圖像識(shí)別的演示Demo,展示了如何高效快捷應(yīng)用PowerVR GPU,我希望大家持續(xù)關(guān)注我們的博客,我們會(huì)持續(xù)更新關(guān)于機(jī)器學(xué)習(xí)算法和PowerVR高級(jí)性能方面的內(nèi)容。