訂閱
糾錯(cuò)
加入自媒體

伯克利提出超輕量級(jí)聲碼器SqueezeWave: Mini身材, Maxi速率

三、SqueezeWave的改進(jìn)措施

通過(guò)對(duì)WaveGlow的分析發(fā)現(xiàn)最主要的計(jì)算量來(lái)自于輸入音頻波形的形狀(長(zhǎng)度)。WaveGlow的輸出維度為(L=2000,Cg = 8)這會(huì)從三個(gè)方面帶來(lái)非常高的計(jì)算復(fù)雜度:WaveGlow是一維卷積,其計(jì)算復(fù)雜度隨L線性增長(zhǎng);為了提高梅爾譜的時(shí)域分辨率需要對(duì)其進(jìn)行上采樣,由于上采樣是由現(xiàn)有樣本簡(jiǎn)單插值而成的意味著in_layer中其中絕大部分計(jì)算是沒(méi)有必要的;在WN函數(shù)中,8通道的輸入被映射到了256到512維中間維度,雖然增加了模型容量但是在輸出時(shí)又被壓縮為8通道,中間維度的信息將會(huì)不可避免的丟失。

為了改進(jìn)這些計(jì)算復(fù)雜的細(xì)節(jié),研究人員將輸入音頻變形為較小的時(shí)域長(zhǎng)度和較多的通道上來(lái),同時(shí)保持WN函數(shù)中的通道尺寸。下面是兩種改進(jìn)的細(xì)節(jié)。當(dāng)L=64時(shí),時(shí)域長(zhǎng)度與梅爾譜相同無(wú)需上采樣,而L=128時(shí),梅爾譜僅需要進(jìn)行最鄰近采樣,這樣進(jìn)一步減少了cond_layer的計(jì)算開(kāi)銷。fig2深度可分離卷積減小計(jì)算量。

此外,研究人員還利用深度可分離卷積代替了in_layer中的一維卷積,用于處理1D音頻信號(hào)。一維卷積將輸入轉(zhuǎn)換為,其中卷積核的尺寸為,計(jì)算量為MACs.利用深度可分離卷積可以將計(jì)算量減小為:
當(dāng)K=3,Cout = 512時(shí)候,這種方法可以減小近三倍的計(jì)算量。

除此之外,由于時(shí)域長(zhǎng)度減小不再需要利用膨脹卷積增加感受野,所以都用常規(guī)卷積進(jìn)行代替更加適合硬件計(jì)算;將res_skip_layer的兩支輸出分支合并,減小了最終的輸出通道數(shù)目。在下圖中可以看到SqueezeWave的改進(jìn):

四、實(shí)驗(yàn)結(jié)果

為了驗(yàn)證模型的性能,研究人員將本文提出的SqueezeWave(SW)與WaveGlow和基準(zhǔn)進(jìn)行了比較,下表中SW-128L代表L=128的模型:

可以看到SW系列模型的計(jì)算量相較于WaveGlow大幅下降,而性能卻能保持較高的水平。

為了驗(yàn)證在邊緣設(shè)備的性能,上表還比較了在Macbook Pro和樹(shù)莓派上的結(jié)果,可以看到甚至在樹(shù)莓派上都可以達(dá)到5.2k-21k/s的樣本生成速度。其中SW128S已經(jīng)能夠生成實(shí)時(shí)并且高質(zhì)量的音頻結(jié)果了。

關(guān)于我門

將門是一家以專注于發(fā)掘、加速及投資技術(shù)驅(qū)動(dòng)型創(chuàng)業(yè)公司的新型創(chuàng)投機(jī)構(gòu),旗下涵蓋將門創(chuàng)新服務(wù)、將門技術(shù)社群以及將門創(chuàng)投基金。將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

將門創(chuàng)新服務(wù)專注于使創(chuàng)新的技術(shù)落地于真正的應(yīng)用場(chǎng)景,激活和實(shí)現(xiàn)全新的商業(yè)價(jià)值,服務(wù)于行業(yè)領(lǐng)先企業(yè)和技術(shù)創(chuàng)新型創(chuàng)業(yè)公司。

將門技術(shù)社群專注于幫助技術(shù)創(chuàng)新型的創(chuàng)業(yè)公司提供來(lái)自產(chǎn)、學(xué)、研、創(chuàng)領(lǐng)域的核心技術(shù)專家的技術(shù)分享和學(xué)習(xí)內(nèi)容,使創(chuàng)新成為持續(xù)的核心競(jìng)爭(zhēng)力。

將門創(chuàng)投基金專注于投資通過(guò)技術(shù)創(chuàng)新激活商業(yè)場(chǎng)景,實(shí)現(xiàn)商業(yè)價(jià)值的初創(chuàng)企業(yè),關(guān)注技術(shù)領(lǐng)域包括機(jī)器智能、物聯(lián)網(wǎng)、自然人機(jī)交互、企業(yè)計(jì)算。在近四年的時(shí)間里,將門創(chuàng)投基金已經(jīng)投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數(shù)科技、迪英加科技等數(shù)十家具有高成長(zhǎng)潛力的技術(shù)型創(chuàng)業(yè)公司。

<上一頁(yè)  1  2  
聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)