隨著VR產(chǎn)業(yè)的開枝散葉和走向成熟,VR與眾多其他技術(shù)的結(jié)合也展現(xiàn)出了極大的應(yīng)用潛力。比如在剛剛結(jié)束的Vive X第三批團(tuán)隊(duì)Demo Day上,就出現(xiàn)了數(shù)家“丟掉”頭顯、只留下追蹤方案+Tracker的企業(yè)。
Red Pill Lab是此次Vive X中唯一一支來自臺(tái)灣的團(tuán)隊(duì)。而能夠從數(shù)千家申請(qǐng)企業(yè)中脫穎而出,正是因?yàn)楣緦ⅹ?dú)家的AI技術(shù)和Tracker相結(jié)合,成功實(shí)現(xiàn)了低成本的全身動(dòng)捕方案。在Demo Day之前,記者也特地與公司的兩位創(chuàng)始人RH和Brian深入了解了背后的技術(shù),以及親身體驗(yàn)了一把隨時(shí)“變身”卡通人物的經(jīng)歷。
成本不到2萬塊!用AI識(shí)別你的聲音
對(duì)于大多數(shù)人來說,“全身動(dòng)捕”聽上去是一項(xiàng)非常遙遠(yuǎn)和高大上的技術(shù)。實(shí)際上,這項(xiàng)本來用于影視行業(yè)的技術(shù)在近年來已經(jīng)逐漸在泛娛樂產(chǎn)業(yè)得到應(yīng)用,比如最近大火的“虛擬主播”就大都采用了全身動(dòng)捕,而非真的使用人工智能。
在Vive Tracker推出之時(shí),其能夠以低成本方式實(shí)現(xiàn)動(dòng)作捕捉的能力也獲得了不少關(guān)注。Red Pill Labs正是利用了Tracker的這一特性實(shí)現(xiàn)了對(duì)用戶身體的捕捉,同時(shí)再通過AI進(jìn)行面部表情的深度學(xué)習(xí)計(jì)算,從而在虛擬形象身上實(shí)時(shí)呈現(xiàn)出真人表演者的動(dòng)作。
但Red Pill最特殊的一點(diǎn)在于,和其他通過攝像頭捕捉面部表情的方案不同,他們選擇捕捉用戶的聲音。
“我們認(rèn)為聲音是被很多人忽視的,”RH說。
據(jù)他介紹,公司的這套系統(tǒng)在通過麥克風(fēng)捕捉到用戶的聲音之后,借由AI對(duì)聲音數(shù)據(jù)進(jìn)行實(shí)時(shí)的分析,然后同步在虛擬形象臉部生成表情。這里的表情包含兩部分,一個(gè)是實(shí)時(shí)的嘴形,其他部分則通過眉毛的運(yùn)動(dòng)來表現(xiàn)。
這樣的描述不禁讓我想到了Animoji。當(dāng)然蘋果采用了TOF方案,也就是通過“劉海”那處的一系列深度攝像頭來實(shí)現(xiàn)實(shí)時(shí)的面部捕捉。但是Red Pill的聲音方案真的靠譜嗎?
從記者的體驗(yàn)來看,聲音轉(zhuǎn)化成面部表情的效果居然出人意料的不錯(cuò)。從視頻中我們可以看到,動(dòng)畫人物嘴部的動(dòng)作基本上和表演者的聲音沒有延時(shí),同時(shí)也非機(jī)械的一張一合,而是隨著聲音的變化在幅度上不一樣。同時(shí),動(dòng)畫人物的眉毛也會(huì)在發(fā)聲的過程中一起運(yùn)動(dòng),包括眼睛的大小也會(huì)有小幅度的變化,這些元素交織在一起呈現(xiàn)出虛擬人物表情的變化。
據(jù)Brian介紹,目前世界上正在研發(fā)這類技術(shù)的僅有Red Pill、英偉達(dá)和迪士尼。英偉達(dá)技術(shù)的限制在于,需要鎖定同一個(gè)表演者的聲紋和虛擬角色;迪士尼則需要先將要講的東西變成文字,再讓機(jī)器處理成虛擬人物臉上的實(shí)時(shí)表情。
除了面部表情,Red Pill通過Tracker+Lighthouse對(duì)表演者身體動(dòng)作的捕捉也已經(jīng)做到非常自然。在體驗(yàn)的20分鐘過程中,動(dòng)捕沒有出現(xiàn)卡頓現(xiàn)象,蹲下、坐下、轉(zhuǎn)身和小跑時(shí)的追蹤也沒有問題,肩膀和手腕也可以轉(zhuǎn)動(dòng)。由于公司的這套軟件基于Unity的架構(gòu)開發(fā),因此也可以通過手柄上的按鍵實(shí)時(shí)切換虛擬表演的背景圖片(視頻),以及為虛擬角色設(shè)計(jì)武器、交互等。公司甚至還自行開發(fā)了一款手套,可以更為精細(xì)的模擬出手指的動(dòng)作。
Brian還談到,目前這套方案最多可以讓兩位表演者同時(shí)進(jìn)習(xí)動(dòng)捕的表演。但隨著新一代Lightohuse的推出,接下來將會(huì)實(shí)現(xiàn)4個(gè)人在10*10平方米的空間內(nèi)同時(shí)表演。
而實(shí)現(xiàn)這些效果的前提——用戶需要花費(fèi)的成本相當(dāng)?shù)?。?duì)于有Vive的用戶,只需另外購(gòu)買4個(gè)Tracker,以美元計(jì)算為400刀;對(duì)于沒有Vive的用戶來說,目前購(gòu)入一套Vive僅需500刀,也就是硬件成本在900刀左右。
從VR社交轉(zhuǎn)向教育和直播
實(shí)際上,我和Red Pill Labs的CTO,也是創(chuàng)始人之一的Dobry早在去年7月的RISE香港展會(huì)上就有過交流。但是在9個(gè)月之前,公司還希望將這套系統(tǒng)用在VR社交平臺(tái)上,AI技術(shù)可以通過對(duì)大數(shù)據(jù)的分析和深度學(xué)習(xí)來對(duì)Avatar的動(dòng)作進(jìn)行預(yù)測(cè),數(shù)據(jù)越多,Avatar呈現(xiàn)出來的動(dòng)作就會(huì)越自然和符合邏輯。
但如今,由于VR的主流之路并不順利,公司的商業(yè)模式也已經(jīng)出現(xiàn)了明顯的轉(zhuǎn)移,即從to C轉(zhuǎn)向to B。RH說,接下來公司最希望在大陸的教育市場(chǎng)落地,尤其是針對(duì)兒童的早教和學(xué)前教育。在他看來,除了因?yàn)榻逃袌?chǎng)比較大以外,兒童對(duì)于虛擬角色的接受度也非常高。在臺(tái)灣,公司已經(jīng)在一家少兒英語(yǔ)學(xué)習(xí)中心中落地,采用入場(chǎng)門票收費(fèi)的方式(約100元/小時(shí))獲取收入。
除了實(shí)地的表演之外,Red Pill的一個(gè)更為遠(yuǎn)大的目標(biāo)是希望能夠?qū)⒄追桨干蟼髦猎贫?讓更多的用戶、表演者在足不出戶的情況下,就可以在Red Pill遠(yuǎn)程直播中心進(jìn)行節(jié)目的直播和收看。
Brian認(rèn)為,云端+電視盒子的方式能夠讓更多人接觸到這種全新的遠(yuǎn)程教育的方式,而且成本并不會(huì)太高。如果公司能夠和電視盒子的服務(wù)供應(yīng)商達(dá)成合作,就可以直接將自己的軟件以應(yīng)用的形式放到網(wǎng)絡(luò)電視平臺(tái)上。用戶在家中只需額外安裝一個(gè)攝像頭,讓表演者看到反應(yīng),接下來就可以很好的進(jìn)行收看和互動(dòng)。在收費(fèi)模式上,則會(huì)采取收取月費(fèi)的模式。
總的來說,在教育培訓(xùn)的賽道上,Red Pill的技術(shù)可以拓展的方向還有很多。Brian特別提到,無論是線下英語(yǔ)培訓(xùn)還是現(xiàn)在十分火爆的在線真人英語(yǔ)教育,都可以考慮用虛擬老師的形式。因?yàn)閷?duì)于孩子們來說,與卡通角色交流的壓力要比和真人小得多。
Red Pill的另一個(gè)特色在于,同樣是做教育,但和大部分VR教育企業(yè)相比,頭顯這個(gè)最笨重的部分可以被完全拋開,這也就變相的降低了用戶的準(zhǔn)入門檻。
雖然目前B端是Red Pill選擇的主戰(zhàn)場(chǎng),但由于成本較低,這套動(dòng)捕系統(tǒng)實(shí)際上也能夠被一些有直播需要的個(gè)人所采納。尤其是聲音捕捉這一特點(diǎn),讓普通人通過麥克風(fēng)就能夠?qū)崿F(xiàn)虛擬形象面部表情的實(shí)時(shí)同步。公司也為此做好了準(zhǔn)備,在軟件端設(shè)置了可以在YouTube、Facebook等開啟直播的通道。
動(dòng)捕+面捕的市場(chǎng)潛力有多大?
Red Pill的這種打造“虛擬老師”的模式,不禁讓我們想起了最近在日本爆紅的“虛擬主播”。有趣的是,在此次的Vive X第三批團(tuán)隊(duì)中,正好有這樣一家來自日本的虛擬偶像打造平臺(tái)COVER,他們也選擇通過Vive Tracker來實(shí)現(xiàn)全身動(dòng)捕,然后實(shí)時(shí)反應(yīng)在自家的虛擬主播“時(shí)乃空”的身上。
通過打賞、廣告的收入渠道,部分受歡迎的主播可以獲得可觀的收入。比如最知名的“愛醬”,光是在YouTube上的年收入就可以達(dá)到約180萬元人民幣。連COVER的時(shí)乃空每次1小時(shí)的直播也能有1.2-3萬元的收入。
從成本來看,由于對(duì)動(dòng)捕效果的要求不像電影那么高,因此所用動(dòng)捕系統(tǒng)的要求也相對(duì)較低。比如日本的很多廠商都選用了諾亦騰的Perception Neuron,套裝價(jià)格為7280/10800元。
在面部表情捕捉方面,現(xiàn)在主流采用的還是攝像頭。表演者需要通過一個(gè)支架將攝像頭固定在自己的面前,攝像頭收集了面部信息通過線纜傳輸?shù)诫娔X上進(jìn)行處理。
比較來看,Red Pill捕捉聲音的優(yōu)勢(shì)在于:
1.對(duì)用戶來說能夠表演的更加自然,因?yàn)闊o需承擔(dān)攝像頭和支架的重量,同時(shí)也不用打光;
2.成本低和便捷,用戶只需普通的麥克風(fēng)即可實(shí)現(xiàn)無線傳輸。
同時(shí),Vive Tracker在動(dòng)捕方面的潛力也在被逐漸發(fā)掘出來。此前,英國(guó)的軟件開發(fā)商IKinema推出了一款叫做Orion的低成本動(dòng)作捕捉系統(tǒng),基于Lighthouse定位技術(shù),由VR頭顯、運(yùn)動(dòng)控制器和3個(gè)Vive Tracker構(gòu)成,年費(fèi)為500美元。在采訪中,RH也提到了這款競(jìng)品,并表示Red Pill相比之下對(duì)于電腦CPU的占用資源更少。同時(shí)公司正在不斷優(yōu)化AI算法,逐漸降低對(duì)電腦配置的要求。
總體來看,動(dòng)作捕捉和面部捕捉在泛娛樂產(chǎn)業(yè)的應(yīng)用在逐漸增加,除了虛擬主播之外,也用于游戲開發(fā)。
而在虛擬主播比較小眾的中國(guó),教育培訓(xùn)是一個(gè)不錯(cuò)的切入點(diǎn):卡通形象能夠有效調(diào)動(dòng)孩子們的積極性,尤其是和本地的知名IP結(jié)合之后能夠發(fā)揮更大的作用。而雖然虛擬主播在中國(guó)偶像化的可能性不太大,但在廣告、營(yíng)銷、客服等場(chǎng)合也能夠發(fā)揮用武之地,因?yàn)樘摂M的形象天生要比真人更加有親和力。
無獨(dú)有偶,在正在進(jìn)行中的GDC上,Unreal在現(xiàn)場(chǎng)用全身動(dòng)捕+實(shí)時(shí)渲染技術(shù),呈現(xiàn)出一個(gè)驚人逼真的虛擬角色“Siren”。在大廠的推動(dòng)下,相信動(dòng)捕技術(shù)和不同產(chǎn)業(yè)的結(jié)合也將越來越多。
原文標(biāo)題:聲音也能做面部識(shí)別?這個(gè)Vive X團(tuán)隊(duì)用AI做到了!| VR陀螺
文章出處:【微信號(hào):vrtuoluo,微信公眾號(hào):VR陀螺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。