嗚啦啦啦啦啦啦啦大家好,還記得那位在中國向工程師們教授AI的美國老師Christopher Dossman嗎?大數(shù)據(jù)文摘與他取得了聯(lián)系,并且有幸邀請(qǐng)他開設(shè)了專欄。從本周起,由Chris精心打造的AI Scholar Weekly欄目終于要和大家見面了。
AI Scholar Weekly是AI領(lǐng)域的學(xué)術(shù)專欄,致力于為你帶來最新潮、最全面、最深度的AI學(xué)術(shù)概覽,一網(wǎng)打盡每周AI學(xué)術(shù)的前沿資訊,文末還會(huì)不定期更新AI黑鏡系列小故事。
周一更新,做AI科研,每周從這一篇開始就夠啦!
使用Net2Vis為CNN創(chuàng)造可直接發(fā)布的可視化方案
Net2Vis的主要目標(biāo)是通過使用巧妙的可視化編碼來遵循視覺語法規(guī)則,從而提高CNN的可讀性。它還通過層積累結(jié)合了層抽象,大大降低了網(wǎng)絡(luò)體系結(jié)構(gòu)的復(fù)雜性。通過這種方法,我們可以實(shí)現(xiàn)連貫、清晰的可視化方案設(shè)計(jì)。此外,Net2Vis可以更及時(shí)地完成工作,在時(shí)間層面上大大優(yōu)于之前的同類方法。
潛在應(yīng)用與效果
像Net2Vis這樣的方法可以讓研究人員很容易地建立CNN的可視化效果圖,并且減少CNN可視化的模糊性。另一方面,如果這個(gè)方法能夠廣泛應(yīng)用于所有網(wǎng)絡(luò)結(jié)構(gòu)的可視化之中,讀者們就能夠在不學(xué)習(xí)特定論文使用的可視化語言的情況下理解CNN的可視化結(jié)果,從而減少理解錯(cuò)誤的可能。
原文:
https://arxiv.org/abs/1902.04394v1
代碼:
https://github.com/viscom-ulm/Net2Vis
使用TensorsCone框架開發(fā)安全的ML Web應(yīng)用程序
如果你想開發(fā)魯棒性強(qiáng)且十分安全的機(jī)器學(xué)習(xí)(ML)應(yīng)用程序,Tensorscone會(huì)是一個(gè)不錯(cuò)的選擇,它是一個(gè)基于IntelSGX的面向硬件的安全機(jī)器學(xué)習(xí)框架。TensorsCone在不影響準(zhǔn)確性的前提下提供了透明性和高水平的性能。與以前實(shí)現(xiàn)數(shù)據(jù)隱私和完整性的模型不同,TensorsCone的設(shè)計(jì)和體系結(jié)構(gòu)是基于TensorFlow的,并且同時(shí)支持培訓(xùn)和分類。
該框架使用了IntelSGX的先進(jìn)技術(shù),能夠?yàn)椴渴鹪诓皇苄湃蔚腤eb基礎(chǔ)設(shè)施上的任何ML應(yīng)用程序提供強(qiáng)大的保密性和完整性。目前,TensorsCone已經(jīng)通過幾個(gè)基準(zhǔn)以及實(shí)際應(yīng)用程序進(jìn)行了評(píng)估,并表現(xiàn)出了強(qiáng)大的效率和安全性。
潛在應(yīng)用與效果
TensorsCone是ML工程師的福音,因?yàn)樗梢詭椭麄冊(cè)诓粻奚鼫?zhǔn)確性和性能的情況下開發(fā)和執(zhí)行針對(duì)私有和敏感數(shù)據(jù)的ML應(yīng)用程序。此外,TensorsCone基于TensorFlow這一最流行的ML框架,所以它可以支持各種未修改的現(xiàn)有ML應(yīng)用程序。
原文:
https://arxiv.org/abs/1902.04413v1
改善極端激烈運(yùn)動(dòng)的深姿態(tài)估計(jì)
這一方法使用運(yùn)動(dòng)后數(shù)據(jù)來改善對(duì)極端激烈運(yùn)動(dòng)的深度人體姿態(tài)估計(jì)。它采用旋轉(zhuǎn)增強(qiáng)技術(shù)對(duì)輸入數(shù)據(jù)進(jìn)行增強(qiáng),并對(duì)每幀進(jìn)行多次姿態(tài)估計(jì)。此后,最一致的姿態(tài)和動(dòng)作被重建為平滑姿態(tài)。對(duì)該模型的系統(tǒng)測試表明,對(duì)于極端激烈的動(dòng)作和不規(guī)律的姿態(tài)來說,該模型能夠有效提高估計(jì)的綜合質(zhì)量。
潛在應(yīng)用與效果
這種深度姿態(tài)估計(jì)算法可以在各種激烈的人體運(yùn)動(dòng)捕捉和虛擬動(dòng)作的修改中得到應(yīng)用,這在過去是非常困難的。后數(shù)據(jù)增強(qiáng)方法也可以有效地用于許多HCI、UI和體育科學(xué)軟件。此外,該方法還啟發(fā)了DNN技術(shù)在ML領(lǐng)域之外的應(yīng)用。
原文:
https://arxiv.org/abs/1902.04250v1
基于CMH-ECC技術(shù)的高效人臉圖像檢索
研究人員提出了一種新的深度糾錯(cuò)交叉模式散列(Error-Corrected Deep Cross-Modal Hashing : CMH-ECC)模型,該模型使用位圖來描述某些面部屬性,在給定需要查詢的屬性后,數(shù)據(jù)庫系統(tǒng)就會(huì)完成相關(guān)的面部圖像檢索。基于兩個(gè)標(biāo)準(zhǔn)開源數(shù)據(jù)集的測試結(jié)果表明,該模型優(yōu)于傳統(tǒng)的圖像檢索算法。
雖然目前的人臉圖像檢索方法取得了令人印象深刻的效果,但事實(shí)上,它們?nèi)匀蝗狈τ行У某绦騺砑?xì)化圖像搜索中的人臉屬性。該模型中采用糾錯(cuò)碼,通過深度跨模式散列法減少了漢明距離,從而提高了檢索效率。
此外,CMH-ECC使用點(diǎn)向數(shù)據(jù)執(zhí)行面部圖像檢索,而無需使用成對(duì)或三倍的訓(xùn)練數(shù)據(jù),這使得它可以擴(kuò)展到非常巨大的數(shù)據(jù)集。
潛在應(yīng)用與效果
通過新的CMH-ECC模型,研究人員、設(shè)計(jì)人員和開發(fā)人員現(xiàn)在可以檢索精確匹配和經(jīng)過改進(jìn)的面部圖像。該模型也可能是向下一代基于面部圖像的ML應(yīng)用程序進(jìn)化的開始。這有可能改善基于攝像頭的安全系統(tǒng)。
原文:
https://arxiv.org/abs/1902.04139v1
對(duì)目標(biāo)檢測模型的訓(xùn)練進(jìn)行簡單、通用的調(diào)整以提高精度
研究人員最近研究了對(duì)模型訓(xùn)練進(jìn)行通用調(diào)整這一課題,這可以在不增加計(jì)算開銷的情況下提高對(duì)象檢測模型的性能。測試結(jié)果表明,在每個(gè)人工智能工程師都做過的目標(biāo)檢測訓(xùn)練中,這些調(diào)整可以提高大約5%的絕對(duì)精度。
首先,研究人員探索了一種對(duì)象檢測的混合技術(shù),并識(shí)別出了在多個(gè)對(duì)象檢測任務(wù)中有助于保持空間變換的特殊性質(zhì)。由此,他們提出了一個(gè)可以應(yīng)用于任何對(duì)象檢測任務(wù)的視覺連貫的混合方法。第二,他們?nèi)嫣剿髁巳鐚W(xué)習(xí)率調(diào)度、權(quán)重下降和批處理規(guī)范等細(xì)節(jié)。最后,通過逐步將該訓(xùn)練提升方法集成到訓(xùn)練單級(jí)和多級(jí)目標(biāo)的檢測模型中,他們研究了該方法的有效性。
潛在應(yīng)用與效果
疊加和實(shí)現(xiàn)這些調(diào)整意味著研究人員可以輕松地訓(xùn)練目標(biāo)探測器模型,同時(shí)不產(chǎn)生額外的計(jì)算成本。這樣的研究也有助于科學(xué)家和工程師們開發(fā)出更有效的目標(biāo)檢測算法。
原文:
https://arxiv.org/abs/1902.04103v1
用于物聯(lián)網(wǎng)系統(tǒng)強(qiáng)對(duì)抗性樣本的測試框架
人工智能安全領(lǐng)域的學(xué)者和研究人員說,物聯(lián)網(wǎng)惡意軟件檢測系統(tǒng)的魯棒性是非常重要的,因此我們需要一個(gè)框架來測試它。鑒于目前生成對(duì)抗性樣本的方法大多需要訓(xùn)練模型參數(shù),而且大多數(shù)都局限于圖像數(shù)據(jù),研究人員提出了一個(gè)基于學(xué)習(xí)的物聯(lián)網(wǎng)設(shè)備Android惡意軟件檢測系統(tǒng)(Testing Framework for Learning-based Android Malware Detection: TLAMD)的測試框架,以幫助抵御物聯(lián)網(wǎng)設(shè)備的對(duì)抗性樣本。
如果框架測試結(jié)果顯示惡意軟件檢測系統(tǒng)無法抵御對(duì)抗性樣本,那么這就說明系統(tǒng)需要加強(qiáng)。TLAMD致力于生成有效的對(duì)抗性樣本,這是一個(gè)沒有模型參數(shù)知識(shí)的測試框架的核心內(nèi)容。
潛在應(yīng)用與效果
通過整合遺傳算法和特定的技術(shù)改進(jìn),TLAMD可以為物聯(lián)網(wǎng)Android應(yīng)用程序創(chuàng)建具有近100%成功率的對(duì)抗性樣本,并且支持黑盒系統(tǒng)測試。這對(duì)ML安全分析師和開發(fā)人員來說是一個(gè)好消息,因?yàn)樵摲椒@示出了開發(fā)用于物聯(lián)網(wǎng)設(shè)備的基于學(xué)習(xí)的Android惡意軟件檢測算法的希望和巨大潛力。
原文:
https://arxiv.org/abs/1902.04238v1
在不“丟臉”的情況下實(shí)現(xiàn)人臉識(shí)別
這一研究提出了一種新的面部識(shí)別方法,在保持必要面部特征的高視覺質(zhì)量的基礎(chǔ)上,這一算法可以隱藏其他的面部特征量。該算法基于深度神經(jīng)網(wǎng)絡(luò),不改變?cè)械娜四樢膊粫?huì)合成新的人臉,而是采用預(yù)先訓(xùn)練的人臉屬性轉(zhuǎn)移模型,將人臉屬性映射到多個(gè)志愿的人臉供體上,實(shí)現(xiàn)了自然的人臉外觀,同時(shí)保證了合成數(shù)據(jù)中的身份變化。測試結(jié)果中該算法對(duì)各種圖像和視頻數(shù)據(jù)集均表現(xiàn)優(yōu)異,證明了模型的有效性。
潛在應(yīng)用與效果
通過這種新的方法,人工智能研究人員可以放心地在不損失原始數(shù)據(jù)質(zhì)量的情況下實(shí)現(xiàn)人臉識(shí)別,并且仍然可以避免可能的人臉識(shí)別訴訟。這也有助于提高計(jì)算機(jī)視覺應(yīng)用的水平,因?yàn)樗梢酝ㄟ^在圖像/視頻生成過程中引入隨機(jī)性來提高原始數(shù)據(jù)集的多樣性。此外,該方法還可以擴(kuò)展到頭部姿勢變化等領(lǐng)域。
原文:
https://arxiv.org/abs/1902.04202v1
采用時(shí)頻特性的TiFGAN可有效合成音頻
生成對(duì)抗網(wǎng)絡(luò)(GANs)在生成建模方面取得了巨大進(jìn)展,特別是在圖像處理和藥物發(fā)現(xiàn)領(lǐng)域。然而,它們的用途遠(yuǎn)遠(yuǎn)超出這些應(yīng)用的范圍。根據(jù)這項(xiàng)研究的結(jié)果,我們發(fā)現(xiàn)GANs還可用于促進(jìn)有效的自然發(fā)聲。
通過對(duì)一個(gè)GAN進(jìn)行短時(shí)傅立葉特征的訓(xùn)練,研究人員已經(jīng)證明了其在生成TF建模中的潛力。他們提出了一個(gè)基于TF的模型——TiFGAN,它利用GANs學(xué)習(xí)評(píng)估TF表示的質(zhì)量,從而實(shí)現(xiàn)了高質(zhì)量音頻的合成。
TiFGAN已經(jīng)通過了傳統(tǒng)模型的測試。它優(yōu)于當(dāng)前最先進(jìn)的GAN生成波形算法,盡管事實(shí)上兩者和傳統(tǒng)模型都實(shí)現(xiàn)了類似的網(wǎng)絡(luò)結(jié)構(gòu)。TiFGAN的計(jì)算成本也很低,在模型訓(xùn)練過程中很有可能簡化收斂性評(píng)估。
潛在應(yīng)用與效果
這種新的建模方法消除了音頻合成中質(zhì)量下降和失真的問題,真正展示了GANs中休眠的潛力,可以探索和利用這些潛力生成一次性的完整信號(hào),從而實(shí)現(xiàn)更有效的音頻合成。而且,如果對(duì)抗性時(shí)頻特性的產(chǎn)生可以應(yīng)用于音頻合成,那么這也意味著人工智能研究界開始了一段新的旅程——試圖利用GANs更深入、更有效地與人工智能進(jìn)行音頻合成。
原文:
https://arxiv.org/abs/1902.04072v1
AI黑鏡——基于AI技術(shù)的人倫小故事
家庭相冊(cè)
我拿著一張舊的家庭照片。它褪了色,有些地方邊緣參差不齊,還有一個(gè)角被撕破了,但正因?yàn)槿绱?我更喜歡它了。
這張照片中的我還是一個(gè)孩子,在海灘上,那時(shí)的我和很多其他孩子正在與一只非常友好的金毛獵犬玩耍,我們只相識(shí)了一天,但這一天我卻記了很多年。
唯一有問題的是照片中的狗和我的記憶出現(xiàn)了偏差,我記得當(dāng)時(shí)和我一起玩耍的是我們自己家養(yǎng)的棕色拉布拉多。當(dāng)我拿著照片找到媽媽提問時(shí),她回答道:“當(dāng)時(shí)和你玩的確實(shí)是這條狗,其實(shí)正是那天看你玩得那么開心,我們后來才開始自己養(yǎng)狗的?!?
我想說的是,記憶并不是人們想象的那樣。如果你和你的朋友或是家人談?wù)撨^去,你會(huì)發(fā)現(xiàn)不同的人對(duì)于同一事件的記憶是不同的,在你有機(jī)會(huì)將記憶與當(dāng)年的筆記進(jìn)行比對(duì)從而確定其真實(shí)性之前,記憶充其量只是一種指引。
很久以前,人們沒有照片(也許有些富有的家庭會(huì)有肖像畫),那時(shí)的人們無從回憶。但是后來,每個(gè)人都有了一本家庭相冊(cè),也就是從那個(gè)時(shí)候開始,人們漸漸明白對(duì)于過去的記憶只是意見的一種,而這種意見是不同的。
然后,我們有了數(shù)碼攝影、存儲(chǔ)和備份,突然間,過去的一切都變成了真實(shí)的過去。我們進(jìn)入了一個(gè)手機(jī)攝像頭,監(jiān)視器,甚至人體攝像頭的時(shí)代。在這個(gè)信息爆炸的時(shí)代,無論這些信息有多重要,想讓足夠多的人花足夠多的時(shí)間來研究這些信息都是不可能的。不過,這種圖像信息的爆炸只是短暫的繁榮。
現(xiàn)在我們已經(jīng)能夠自動(dòng)識(shí)別圖像中的一個(gè)物體或一個(gè)人了,這事實(shí)上距離推測一個(gè)物體或人在圖像中的樣子已經(jīng)不遠(yuǎn)了。如果我們能夠在圖像中插入它,同時(shí)又無法識(shí)別一個(gè)圖像中的物體是不是被插入的,那么在未來,當(dāng)我們面對(duì)圖像的時(shí)候,這副圖像中的任何東西,不管是靜止的還是移動(dòng)的,存儲(chǔ)的還是實(shí)時(shí)的,都不能再被認(rèn)為是可靠的。
當(dāng)然,一定會(huì)有人聲稱他們能夠分辨出不同之處——也許可以從一些像素上分辨出來——但對(duì)于一般人來說,對(duì)于圖像的看法又變回了一個(gè)意見問題。
圖像證明一切的時(shí)代已經(jīng)過去了。
我們的孩子會(huì)成長于一個(gè)圖像不可靠、不客觀、不永恒的世界。我相信以前一切都很好,以后也會(huì)很好。但是對(duì)于我們這幾代人來說,我們已經(jīng)習(xí)慣了相信我們所看到的,相信事情將永遠(yuǎn)不會(huì)改變。我們把記憶儲(chǔ)存在這些東西里,直到這些東西使我們失望。
所以我坐在這里,拿著這些家庭照片,它們太老了,太真實(shí)了,任何人都不能操縱或偽造,我正試著通過他們喚醒記憶。我相信它們會(huì)一直持續(xù)下去......
專欄作者介紹
Christopher Dossman是Wonder Technologies的首席數(shù)據(jù)科學(xué)家,在北京生活5年。他是深度學(xué)習(xí)系統(tǒng)部署方面的專家,在開發(fā)新的AI產(chǎn)品方面擁有豐富的經(jīng)驗(yàn)。除了卓越的工程經(jīng)驗(yàn),他還教授了1000名學(xué)生了解深度學(xué)習(xí)基礎(chǔ)。
原文標(biāo)題:不“丟臉”實(shí)現(xiàn)人臉識(shí)別,使用TiFGAN合成音頻 | AI Scholar Weekly
文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。