所在位置:綜合新聞

繼下棋、寫作之後,人工智慧開始接近人類歌手水平

  “人工智慧搶走人類工作的涵蓋面非常大,目前趨勢看來,並不像我們想象的那樣——某些創造性的工作、人與人打交道的工作不會被搶走。很可能最先搶走的不是體力勞動者的工作,恰恰是腦力勞動者。”幾天前,科幻作家劉慈欣在接受媒體群訪時所做的預測,可能正變為現實。但在科學家們看來,人工智慧要做的並非替代人類,而是幫助人類。

  16日,微軟小冰在其微博宣佈“演唱深度學習模型完成第四次重大升級”,人工智慧“開始接近人類歌手水平”,併發布了“新模型生成的最新單曲《我知我新》”。

  截至5月25日12時,這首單曲在網易雲音樂收穫了超過1800條評論。點讚數最多的評論寫道,“小冰是現在唯一秒回我的女生了吧”;點讚數第二多的評論收穫了195個讚,這位網友認為,小冰的“作詞水平領先周傑倫兩條街了,未來可期”。

  “這首歌小冰參與了歌詞的創作,同時也是小冰自己演唱的。” 微軟(亞洲)互聯網工程院人工智慧創造事業部副總經理袁晶向中新網記者介紹,“雖然這次的曲子不是小冰創作的,但之前也發過它作曲的作品。所以其實小冰是可以作曲演唱的,只是這次用的曲子是人類創作的,可以認為這是聯合創作。”

  袁晶告訴記者,和此前的寫詩類似,人工智慧創作歌詞也需要通過大量的歌詞去“訓練”。在經過上萬次“學習”後,才能在一些觸發源之下刺激它輸出。

  “我們訓練用了大概一千萬行的歌詞。在訓練中模型我們也會做一些優化,針對曲調的韻律、節奏,會有一些優化。所以這首詞生成出來完全是AI的作品。”他説。

  創作歌詞之後,讓小冰把歌詞唱出來又是另外一個過程。

  

  

  在微軟的科學家看來,小冰唱歌的原理和虛擬歌手“初音未來”或“洛天依”演唱的原理並不一樣——虛擬歌手需要錄製好的聲音庫,再通過重新拼接聲音庫中的片段形成歌曲;而小冰唱歌是根據輸入的信號做出發聲的反應。

  微軟(亞洲)互聯網工程院微軟小冰首席語音科學家欒劍直言,在拿到曲子後,會根據小冰的風格,調整曲子的細節。“如果完全按照簡譜的節拍和音符來唱,會非常機械,不好聽。這部分我們是有模型來做的。”

  在人工智慧識別了曲子後,就需要用到“另一個模型”——用小冰的聲音演唱出來。而這個模型並非簡單的發聲裝置。

  欒劍告訴記者,這次使用的唱歌模型已經是第四代了。“我們的第一代版本挺像一個普通人唱歌,雖然唱得挺自然,但有時候不太在調上;到第二代時,我們解決了基本音準;後來不斷迭代模型、優化算法,在音質、自然度,包括銜接上做改進,升級到第三代。”

  “第四代唱歌模型主要改進了三個方面——一個是我們加入了換氣的聲音。我們跟一些音樂人做了交流,覺得加入這個會提高演唱的自然度;第二是我們讓這個模型變得更複雜了一些,加入了控制因素,使得它在字和字之間、轉音地方的一些小技巧,能更加流暢、平滑;第三我們加入了更多訓練數據,使模型更加穩定,在風格上更加成型。”他説。

  “以前小冰在唱主歌和副歌的感情色彩基本是一樣的,虛擬歌手唱歌的時候通常會有這樣的問題。而現在可以看到,小冰在唱主歌和副歌的感情、音色是有區別的。副歌的地方情緒會更加激烈,音色會更加高亢。”欒劍覺得,這是新版本與此前三個版本區別最大的地方。

  事實上,對於創造人工智慧的科學家們而言,讓小冰更像人類一直是他們的目標。“我們在小冰身上主要探索兩點,一是情感,一是創造。”袁晶覺得,這兩點其實某些時候是緊密聯絡在一起的。“當你做創作的時候一定有情感,當有情感的時候就會想要表達一些東西。”

  在他看來,這樣的研究不僅僅是在嘗試將人工智慧技術應用到內容創作領域,同時也希望讓人工智慧的這種能力幫助到人類。

  “其實每個人都有自己創作的慾望。只是有的人比較擅長創作,成為了畫家、音樂家,有的人雖然有這樣的創作慾望,但他沒有這樣的能力,或者説沒有很高的能力創作出這樣的內容。我們覺得,是不是能讓AI幫助每一個普通人,都能具有這樣創作自己個性化東西的能力。比如説,給他自己或者朋友寫首歌。”袁晶説。

  欒劍同時也強調,人工智慧的發展並非要替代人類,而是將來“幫助人去處理一些很重復的、沒有必要的腦力勞動”。

  “況且AI現在還處於很基礎的階段。”欒劍覺得,發展人工智慧的目標是將來輔助人類去探索更多未知的領域。“比如在唱歌方面,AI很可能創造一些新的東西。而這並不會替代原有的,卻會刺激後來的歌手從中汲取所需的養分,創作出新的東西。這是挺有意思的事情。”

  談及小冰的未來,袁晶表示,將來會有很多方向可以去嘗試。“比如能寫詩,是不是可以去試著寫散文,之後是不是還可以寫短篇小説,是否可以從事專業類文本的撰寫。當然難度會一個比一個大。”

  在音樂方面,欒劍認為,現在小冰有自己的風格了,但風格還比較單一。“我們會嘗試讓小冰做出風格上的變化。另外,目前發出一些不太常見的聲音對小冰來説,仍比較困難,比如搖滾中那種比較重的嘶吼聲。這方面我們還在探索。”

關鍵詞: