訂閱
糾錯(cuò)
加入自媒體

周海宏:不能用AlphaGo的思路,去做音樂的人工智能

2017-11-26 00:10
AI森林
關(guān)注

持續(xù)七日的2017全球創(chuàng)業(yè)周中國站(Global Entrepreneurship Week China,簡(jiǎn)稱GEW),11月19日在上海長(zhǎng)陽創(chuàng)谷1會(huì)場(chǎng)迎來壓軸之作——人工智能產(chǎn)業(yè)投資論壇的開幕。

論壇由初創(chuàng)投資主辦。于2012年成立的初創(chuàng)投資,是中國第一家人工智能產(chǎn)業(yè)投資機(jī)構(gòu),是國內(nèi)數(shù)十家人工智能企業(yè)最早的投資機(jī)構(gòu)。

此次論壇成功匯聚全球范圍內(nèi)超過60家明星企業(yè)、近二百位產(chǎn)業(yè)界投資界學(xué)術(shù)界的專業(yè)人士,并吸引數(shù)千人次的專業(yè)觀眾到場(chǎng)參會(huì)。其中,八位身處人工智能“產(chǎn)學(xué)研創(chuàng)投”前線、腦洞驚人的實(shí)力派嘉賓,先后發(fā)表主題演講。

中央音樂學(xué)院副院長(zhǎng)、教授、博士生導(dǎo)師周海宏率先登臺(tái)演講。他以“如何讓機(jī)器聽懂音樂——音樂理解的人工智能路線圖”為題,向現(xiàn)場(chǎng)觀眾展示了人工智能與音樂深度關(guān)聯(lián)的可能性。

周教授首先對(duì)“聽懂”進(jìn)行了限定,采用日常人們所說的聽“懂”即是指從音樂中感受到視覺性的形象、情態(tài)性的情感,甚至思想性的哲理。要實(shí)現(xiàn)機(jī)器“聽懂”——理解音樂的目的,就必須從聯(lián)覺理論出發(fā),找出人類由音樂的聽覺體驗(yàn)引發(fā)其它感覺之間的聯(lián)覺對(duì)應(yīng)關(guān)系。

周海宏:不能用AlphaGo的思路,去做音樂的人工智能〡2017GEW

核心觀點(diǎn):“聯(lián)覺是人的本能,是音樂引發(fā)其它感覺體驗(yàn)的中間環(huán)節(jié)。未來,我們做音樂理解人工智能,采用阿爾法狗的路線,通過分析個(gè)人音樂審美經(jīng)驗(yàn)去獲得規(guī)則,是行不通的;而應(yīng)該象阿爾法元那樣,把人類理解音樂的規(guī)則直接告訴機(jī)器。即,不是通過經(jīng)驗(yàn)學(xué)習(xí)獲得規(guī)則,而是通過規(guī)則獲得策略,這樣,才有望在音樂理解與感受的領(lǐng)域上出現(xiàn)人工智能應(yīng)用場(chǎng)景!

————————————————————————

以下內(nèi)容來自周海宏的演講全文,文字由AI森林整理:

真沒想到會(huì)站在今天這個(gè)講臺(tái)上。我既不懂人工智能,也不懂各種復(fù)雜計(jì)算,更不懂市場(chǎng)。我的專業(yè)是音樂心理學(xué),是研究審美規(guī)律的。

我先給大家唱一個(gè)旋律,你們來告訴我,哪個(gè)是表現(xiàn)高山,哪個(gè)表示流水的。

大家肯定會(huì)一致覺得第一個(gè)是流水,第二個(gè)是高山。為什么所有人的立刻一致地產(chǎn)生了這樣的“聽懂”音樂的判斷?這其中一定是有規(guī)則的。我之所以能夠舉出讓大家產(chǎn)生一致反應(yīng)的音樂例子,一定是通過研究掌握了這個(gè)規(guī)則。

讓機(jī)器擁有理解音樂的人工智能,也需要由人來告訴機(jī)器一些規(guī)則,在這個(gè)規(guī)則的基礎(chǔ)上,機(jī)器才能進(jìn)行后續(xù)的復(fù)雜計(jì)算。

如何讓機(jī)器“聽懂”音樂?大家可能在想,連人都不一定能“聽懂”音樂,機(jī)器怎么能夠“聽懂”音樂呢?

音樂有兩個(gè)最重要的屬性,一是沒有視覺造型性,二是沒有語意符號(hào),因此音樂不能傳達(dá)視覺形象,也不能直接傳達(dá)思想概念,這是造成大家聽不懂音樂的核心原因。

我們先來分析一下,人是如何“聽懂”音樂的。

下面我放一個(gè)例子。這一段音樂,大家覺得它表現(xiàn)的是什么?

我做過調(diào)查,很多人會(huì)選擇“險(xiǎn)峻的高山”和“洶涌的大!。

再放一段曲子,所有人會(huì)選擇“清澈的小溪”和“秀麗的田園”。

人的主觀感受為什么會(huì)有如此高的一致性?一定是這段音樂和那個(gè)場(chǎng)景形成了對(duì)應(yīng)的關(guān)系——聯(lián)覺對(duì)應(yīng)關(guān)系。

所謂聯(lián)覺就是一個(gè)感覺器官受到刺激,其它的感覺器官發(fā)生了反應(yīng)的心理現(xiàn)象。

巧克力與薄荷糖,高音與低音,大家一定認(rèn)為低音像巧克力,高音像薄荷糖;紅燒肉和酸泡菜,大家會(huì)覺得泡菜像高音;悶熱和涼爽,大家會(huì)覺得涼爽像高音;亮色和暗色,大家會(huì)覺得高音亮, 低音暗;羊絨和真絲,真絲像高音……味覺、溫度、視覺、觸覺,都和聽覺聲音的高低發(fā)生了對(duì)應(yīng)關(guān)系。這些現(xiàn)象就是聯(lián)覺的表現(xiàn)。

由此大家可以想到,如果把人對(duì)聲音的感覺與其它感覺的聯(lián)覺對(duì)應(yīng)關(guān)系找到了,就邁向了機(jī)器理解音樂最重要的一步。

我放兩段音樂,大家覺得哪段適合給空調(diào)機(jī)廣告配樂。,對(duì),是第二段音樂,因?yàn)楦咭魰?huì)讓人感覺涼快;如果是給《法治進(jìn)行時(shí)》來選片頭,就會(huì)選擇第一段音樂,因?yàn)榈鸵艚o人感覺“深沉”。“深”是空間高度,“沉”是物體重量,我們拿這兩個(gè)字形容聽覺的聲音,這個(gè)詞本身就是聯(lián)覺現(xiàn)象。

我的論文《音樂與其表現(xiàn)的世界》,獲得過2001年教育部全國優(yōu)秀博士學(xué)位論文獎(jiǎng)。這是音樂理論界第一個(gè)獲得百篇優(yōu)博獎(jiǎng)的,因?yàn)檫@篇論文發(fā)現(xiàn)了音樂和表現(xiàn)東西之間的中間環(huán)節(jié),揭開了音樂藝術(shù)表現(xiàn)之謎。

聲音的高低是頻率決定的,它與顏色有聯(lián)覺關(guān)系。三百前就有人研究色-聽的聯(lián)覺關(guān)系了,但一直沒有找到穩(wěn)定的、普遍的規(guī)律,色-聽聯(lián)覺一直不能排除主觀臆想。

大家知道,我們感受到的顏色不是單純的元素,是由色調(diào)、明度、飽和度構(gòu)成的。當(dāng)我把顏色和聲音都做了具體的元素的細(xì)分后,使得聯(lián)覺的問題迎刃而解。研究發(fā)現(xiàn),聲音和顏色的色調(diào)無關(guān),而只是和明度有關(guān)——聲音的高低,和顏色的明暗形成了聯(lián)覺對(duì)應(yīng)關(guān)系。

聲音的強(qiáng)弱是一個(gè)能量的現(xiàn)象:強(qiáng)音使人感覺大,弱音使人感覺小。強(qiáng)音使人感覺動(dòng),弱音使人感覺靜。

聲音的長(zhǎng)短和空間的延展形成對(duì)應(yīng)關(guān)系。因此,對(duì)物體大小、人的個(gè)性特征也有表現(xiàn)力。比如,偉人,就要用慢速的聲音來表現(xiàn)。對(duì)應(yīng)地,小人出場(chǎng),那就用快速。

聲音的包絡(luò)特征與硬、軟,柔和、威脅有對(duì)應(yīng)關(guān)系。

緊張度由聲音的音色和聲音的組合特征產(chǎn)生。聲音的緊張對(duì)應(yīng)了情緒的緊張,聲音與顏色的混雜、利益的競(jìng)爭(zhēng)、主體的需要和期待等等,都有對(duì)應(yīng)關(guān)系。

根據(jù)上面的原理,我來舉些例子,比如中國民歌《小白菜》,[唱《小白菜》]“小白菜呀地里黃呀,兩三歲上,沒了娘呀……”一個(gè)七個(gè)月的小孩,聽著聽著就哭了。

復(fù)雜一些的例子,《國際歌》,為什么給人感覺是悲壯的?要拆解為“壯”和“悲”,“壯”是向上的,和諧的,音樂的旋律用了向上的四度音程;緊接著后面的下行產(chǎn)生“悲”感,再壯、再悲,這就是為什么《國際歌》經(jīng)常在革命失敗的時(shí)候才唱。實(shí)際上,它之所以給人悲壯的感覺,就是因?yàn)橐魳沸螒B(tài)有這樣的特征。

音樂理解的人工智能,要求必須把一個(gè)聲音帶來的感受細(xì)分到具體的元素中,才能被機(jī)器理解。音樂理解的人工智能有一個(gè)非常重要的預(yù)處理工作:對(duì)音樂描述詞所指的感覺現(xiàn)象的進(jìn)行精細(xì)切分。

總結(jié)一下:作曲家就是靠聯(lián)覺來選擇和組織聲音進(jìn)行表現(xiàn),聽眾也是依據(jù)聯(lián)覺反應(yīng)規(guī)律感受音樂的“弦外”之“意”。

在此,特別想和從事人工智能的朋友們講一下:我們現(xiàn)在的人工智能思路,基本上是給它一大堆的音樂案例,讓聽者為音樂打上標(biāo)簽,然后讓計(jì)算機(jī)進(jìn)行深度學(xué)習(xí),從中分析出來帶這個(gè)標(biāo)簽的音樂所具有的特征。這其實(shí)就是AlphaGo的思路。

但如果我們做音樂的人工智能研究,也這樣搞,就會(huì)出現(xiàn)問題。因?yàn)橐粋(gè)人可能在音樂感受的過程中有太多個(gè)人主觀性因素。

同樣是柴可夫斯基的作品,如果這個(gè)人的注意力放在低音部,就會(huì)感覺這個(gè)曲子悲哀,如果注意力放在高音部,就會(huì)覺得是明快的。最不明智的是根據(jù)歌詞給音樂的情感打標(biāo)簽,這時(shí)候遇到一個(gè)問題,詞所暗示的情感和音樂形態(tài)特征不能對(duì)應(yīng),比如“傷心總是難免的”這個(gè)旋律[唱],你一點(diǎn)不覺得傷心。

另外,從音樂創(chuàng)作的人工智能角度看,絕大多數(shù)音樂作品不是好作品。即便是一個(gè)好作品,還有很多部分不是好的,只有其中一部分非常閃光的東西,才讓它成為一個(gè)偉大的作品。如果把完整的作品交給計(jì)算機(jī),它一定把臭棋和好棋都學(xué)下來。關(guān)鍵是,下圍棋是有對(duì)錯(cuò)的,計(jì)算機(jī)可以判斷這步走的是對(duì)、是錯(cuò),但是,音樂的欣賞沒有好壞對(duì)錯(cuò)的絕對(duì)標(biāo)準(zhǔn),這對(duì)計(jì)算機(jī)而言,就更麻煩,它不知道哪個(gè)結(jié)果是對(duì)的。我們要認(rèn)識(shí)到:莫扎特和肖邦,絕不是象機(jī)器那樣學(xué)了所有前人的作品才成為偉大作曲家的,他們一定是根據(jù)自己頭腦中的規(guī)則進(jìn)行創(chuàng)作。

我們需要換一種思路,整個(gè)藝術(shù)的人工智能要換一個(gè)思路,不再是分析以往的作品,而是把這個(gè)直接決定音樂藝術(shù)最本質(zhì)的價(jià)值判斷規(guī)則告訴機(jī)器,這就是AlphaZero的思路。

當(dāng)然,具體的工作非常非常復(fù)雜。我們首先要對(duì)音樂的音頻進(jìn)行一系列分析,分析出來人的聽覺判斷對(duì)象,還要把人的聽覺注意分配規(guī)則告訴計(jì)算機(jī)。計(jì)算機(jī)才能象人一樣聽音樂,然后才能根據(jù)前面分析的聯(lián)覺對(duì)應(yīng)關(guān)系規(guī)則進(jìn)行機(jī)器的理解工作。

我最近看了一個(gè)人工智能的研究,為了標(biāo)識(shí)音樂作品每段的情緒特征,它們的方案是按每5秒鐘切分一段進(jìn)行分析。大家知道,音樂不是按照每5秒一換情緒的,其實(shí)應(yīng)該按照音樂句法切分。但是,這項(xiàng)研究沒有按音樂句法劃分規(guī)則切分,采取了每5秒鐘截一個(gè)段。以這樣分段去分析,計(jì)算機(jī)算出的結(jié)果一定是亂的。

下一步是要做一個(gè)大的音樂描述詞的詞庫,標(biāo)出音樂描述詞的感性特征,然后讓計(jì)算機(jī)去學(xué)習(xí)。需要排除沒有感性特征、音樂表現(xiàn)不了的詞,留下音樂能表現(xiàn)的,然后我們?cè)侔堰@些描述詞的應(yīng)用情景進(jìn)行分類。

接下來就需要依據(jù)聯(lián)覺對(duì)應(yīng)關(guān)系,對(duì)這些描述詞的感性特征進(jìn)行前面說的聲音五大表現(xiàn)元素賦值;之后,還要標(biāo)定這個(gè)描述詞的備選情景。比如“郁悶”這個(gè)詞,我們需要列出這個(gè)詞的使用情境。這是因?yàn)殡m然聯(lián)覺有共同性,但每個(gè)人的聯(lián)想不相同,需要依照個(gè)人的經(jīng)驗(yàn)來由聽者自己選擇適宜的情境。

最后實(shí)現(xiàn)這樣的應(yīng)用場(chǎng)景:

把一段音樂輸入計(jì)算機(jī),計(jì)算機(jī)就會(huì)自然反饋出來一些描述這段音樂帶給人感受的詞——這就是機(jī)器聽懂了音樂的表現(xiàn)!

進(jìn)一步的應(yīng)用可以讓聽眾選擇自己偏好的聯(lián)覺激發(fā)情景。

或者如果給計(jì)算機(jī)一個(gè)沒有聲音的場(chǎng)景片或廣告,它能根據(jù)這個(gè)場(chǎng)景或廣告的感性特征(當(dāng)然這需要那個(gè)領(lǐng)域人工智能的配合)選出適合的配樂。

當(dāng)我們也可以把自己的心情以各種各樣的途徑告訴計(jì)算機(jī),然后計(jì)算機(jī)自動(dòng)推給我們所需要的音樂。

音樂的機(jī)器理解的具體應(yīng)用場(chǎng)景會(huì)非常多,到那時(shí)就是一個(gè)需要對(duì)應(yīng)用場(chǎng)景的想象力了。

謝謝大家!

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)