欧美一区二区日韩精品,在线亚洲视频无码白浆

Facebook工程師創(chuàng)建了比爾·蓋茨的AI語(yǔ)音克隆體

2019-06-12 09:10

近年來(lái)，人工智能技術(shù)的發(fā)展已經(jīng)讓我們覺(jué)得有些可怕，而如何防止 AI 這把雙刃劍不被錯(cuò)誤地使用，也引發(fā)了越來(lái)越激烈的探討。比如 2017 年底冒出的 DeepFakes 視頻換臉技術(shù)，就讓許多名人遭遇了虛假色情片的困擾。現(xiàn)在，F(xiàn)acebook 工程師們又創(chuàng)造出了一個(gè)能夠惟妙惟肖地模仿比爾·蓋茨的語(yǔ)音 AI 。

事實(shí)上，蓋茨只是 MelNet 可以模仿的多位人物中名氣最大的，其他“被克隆”的包括喬治·武井（George Takei）、珍·古德（Jane Goodall）、史蒂芬·霍金等人。

在下列剪輯中，你可以聽(tīng)到一系列無(wú)害的句子，比如：

游泳時(shí)抽筋不是鬧著玩的（ A cramp is no small danger on a swim ）

同樣的話他說(shuō)過(guò)三十遍（ He said the same phrase thirty times ）

摘下沒(méi)有葉子的鮮亮玫瑰（ Pluck the bright rose without leaves ）

2 加 7 小于 10（ Two plus seven is less than ten ）

上述每一段語(yǔ)音，都是由 Facebook 工程師設(shè)計(jì)創(chuàng)建的一個(gè)名為 MelNet 的機(jī)器學(xué)習(xí)系統(tǒng)生成的。那么，用來(lái)訓(xùn)練這套 ML 系統(tǒng)的數(shù)據(jù)，又是哪里來(lái)的呢？

據(jù)悉，MelNet 分析了 452 小時(shí)的 STEM－y 類(lèi) TED 演講數(shù)據(jù)集，以及其它有聲讀物。

顯然，對(duì)機(jī)器學(xué)習(xí)系統(tǒng)來(lái)說(shuō)，模仿這些人物慷慨激昂的演講方式，確實(shí)是一個(gè)不小的挑戰(zhàn)。

近年來(lái)，語(yǔ)音克隆的質(zhì)量一直在穩(wěn)步提升。比如近期播放的 Joe Rogan 復(fù)制品，就是一個(gè)極好的證明。

不過(guò)這一進(jìn)展的大部分工作，可以追溯到 2016 年的 SampleRNN 和WaveNet 。

后者是由位于倫敦的人工智能實(shí)驗(yàn)室 DeepMind 創(chuàng)建的機(jī)器學(xué)習(xí)（ML）文本轉(zhuǎn)語(yǔ)音（TTS）轉(zhuǎn)換程序，該實(shí)驗(yàn)室同時(shí)為 Google Assistant 智能助理提供支持。

WaveNet 和 SampleRNN 之類(lèi)的方案，就是為 AU 系統(tǒng)提供大量的數(shù)據(jù)，并用它來(lái)分析人生中的細(xì)微差別。

這些舊式 TTS 系統(tǒng)無(wú)法生成音頻，但可以重構(gòu) —— 將語(yǔ)音樣本切割成各種音頻元素，然后將之拼接到一起，來(lái)創(chuàng)建新的單詞。

不過(guò)當(dāng) WaveNet 等團(tuán)隊(duì)利用音頻波形進(jìn)行訓(xùn)練時(shí)，F(xiàn)acebook 的 MelNet 卻用上了信息更加密集的格式 —— 頻譜圖。

在一篇隨附的論文中，F(xiàn)acebook 研究人員指出，雖然 WaveNet 輸出的音頻保真度更高，但 MelNet 在捕捉“高級(jí)結(jié)構(gòu)”方面更勝一籌。

MelNet 能夠模仿演講者聲音中包含的某種微妙的一致性，遺憾的是我們無(wú)法用文字來(lái)描述，但人耳聽(tīng)起來(lái)確實(shí)更舒服。

Facebook 工程師稱(chēng)，這是因?yàn)轭l譜圖中捕獲的數(shù)據(jù)，較音頻波形中的數(shù)據(jù)更加緊湊。這種密度使得算法能夠生成更加一致的語(yǔ)音，而不是波形記錄中被極端分散和磨練出來(lái)的細(xì)節(jié)。

當(dāng)然，MelNet 也有一些限制，最總要的是無(wú)法復(fù)制人聲在較長(zhǎng)一段時(shí)間內(nèi)的變化，比如在文本段落上構(gòu)建出來(lái)的戲劇性張力。

有趣的是，這類(lèi)似于我們?cè)?AI 生成的文本中見(jiàn)到的約束性，其只能實(shí)現(xiàn)表層、而非長(zhǎng)期結(jié)構(gòu)上的一致性。

撇開(kāi)這些瑕疵不談，MelNet 已經(jīng)足夠證明其強(qiáng)大的系統(tǒng)功能。它不僅可以生成逼真的人聲，還可以用于生成音樂(lè)（示例 1 2 ）。不過(guò)想要商業(yè)應(yīng)用的話，還需要經(jīng)過(guò)長(zhǎng)時(shí)間的雕琢。