由聽AI張國榮到訓練AI汪明荃得出的十點啟示

一:先弄清AI翻唱的原理。撇除一切高深術語,制作AI歌手翻唱簡單而言分兩個部分。舉個例子,假如我要用AI盧凱彤唱林二汶的《最後的信仰》,第一是是輸入一堆盧凱彤的唱歌片段(說話片段也可),讓電腦學習「盧凱彤的歌聲是怎樣的」;第二是提供《最後的信仰》這歌的人聲(vocal)部分,是不是林二汶唱的這裡無關重要,電腦只知道要把交給它的歌聲,換成它學會的盧凱彤聲音就對了。所以,在兩個部分裡都有重要一環,就是把人聲從音樂分離出去,交給電腦訓練的和指派給它替換的歌聲,都必須是純人聲。我是去到研究AI翻唱才知道在網上可以找到不少用AI技術把歌曲去人聲的工具(例如線上工具Vocal Remover和需要下載的Ultimate Vocal Remover),這就明白了為甚麼YouTube很容易找到最新推出的流行曲的純音樂版,那AI去人聲效果比起以自動去人聲作為賣點的唱K神器強到不知哪裡去。

二:有些歌手不宜做AI。第一次聽AI翻唱廣東歌是AI張國榮的《到底發生過甚麼事》和《時光倒流一句話》,聲音的相似程度驟聽是有點驚喜的,但完全沒有張國榮的神髓。張國榮的特色不在聲線而在難以量化的感染力和感情,而且不同年代的張國榮唱腔也不盡相同,你很難說「如果張國榮唱這首歌」會是怎樣個唱法,也更難重現張國榮的演繹了。黃家駒同理,他那種搖滾精神的感染力也是AI模仿不來的,有些歌本質上跟黃家駒已經格格不入,套用到AI黃家駒身上有時更感覺尷尬,也許值得做的AI黃家駒翻唱恐怕只有三人時代的Beyond吧。

三:零瑕疵歌手AI較易模仿? 如果AI歌手的弱點是沒有感情,那照計訓練「零瑕疵靚聲王」的AI會有更好效果,馬上想起的粵語有李克勤,國語有林志炫,可是暫時也不見有他們的AI仿製品,否則可以驗證我的假設。如果有AI林志炫,正經的我想聽它翻唱方大同2012或之前任何作品:不正經的,我想聽黃明志《擊敗人》!

四:AI翻唱很容易聽厭。一來以AI現時能力模仿歌手也只有形似沒有神似,二來很容易聽到發音不準如「譚仔阿姐」附體(這也是AI翻唱廣東歌之一大難處),三來經常重重覆覆幾個歌手互相「翻唱」對方的歌(例如陳奕迅姜濤張敬軒林家謙),或者一首金曲被各種AI唱到爛(例如《到底發生過甚麼事》至少找到四個AI翻唱),聽多幾首已缺乏新鮮感。

五:為甚麼AI孫燕姿可以量產?當今華語歌壇最紅的AI歌手應該是孫燕姿了,翻唱作品未到上千也至少過百吧,可能是因為訓練其AI用上充足數據和時間,更有可能是因為有現成model可以讓人用簡單的線上工具制作AI孫燕姿的歌曲,正如外國也有些AI cover工具,讓你可生產指定的某些歌手名人的歌聲。

AI生成孫燕姿(網上圖片)

六:要反差夠大才有驚喜。所以爆紅的是AI尹光,唱《一人之境》《Dear My Friend,》未夠,還要唱日文、泰文甚至《Let It Go》。如果大家都是年代相若的活躍歌手,真人翻唱也非遙遠的事,確實沒有必要聽AI翻唱。例如AI王菀之唱《隱形遊樂場》該有話題吧?但其實找「真王菀之」翻唱也不是沒有機會啊。

七:要夠似,有時還得專人代唱。為甚麼AI尹光《一人之境》進化到可以模仿著尹光「原來已很高呀興」?其實AI未強大到模仿聲音以外的表達,只是有人模擬了尹光的唱法再用AI把訓練好的尹光人聲套進去,但因為要自己錄一個翻唱,出現頻頻走音兼唱錯歌詞,著實有點失禮了尹光這類的唱家班。

八:要選對歌,也要選對版本。另一首AI尹光代表作《Dear My Friend,》,參考的是古巨基的翻唱而非姜濤原版,字正腔圓的古巨基令AI尹光也容易唱對歌詞,其實頭段也不太似,到副歌才暫入佳境越來越有「尹味」,配上尹光演唱會影片作MV加「光B」支持者留言令這歌效果更佳。古巨基在Music Panda選唱姜濤這代表作時,也沒有想到不久之後會造就AI尹光的熱潮吧。也例如量產型AI孫燕姿,我覺得最好聽的是翻唱《一場遊戲一場夢》(也就是《幾分傷心幾分痴》國語版),伴奏音樂也不是王傑原裝版本,重新編曲更能配合孫燕姿的聲線。

九:訓練AI歌手比想像中容易。作為半個IT人兼十九年音樂博客,看到網上AI Cover的教學影片(例如這段Jarods Journey的YouTube影片)也是躍躍欲試,本著「人做我唔做,殺出新血路」的精神,我的第一個實驗是訓練AI汪明荃翻唱Serrini《網絡安全隱患》,一開始只是試一下影片提及的program能否順利執行,只提供少量data(一開始只用了《熱咖啡》一首歌的vocal)加訓練很短時間(第一個model只訓練了不足半小時)。顯得粗製濫造是意料中事,雖然副歌唱到似韓文多過廣東話令我凌晨12點對著電腦爆笑當晚兩點才睡著,但總的而言比想像中順利,至少已經稍有汪明荃影子,更驚喜的是《網絡安全隱患》中間的英文(即是「you are securely connected to our very private network」那段)反而難不到AI汪阿姐(留意《熱咖啡》全首是一個英文字也沒有),應該是英語發音在原先的AI模型有先天優勢吧。似乎只要再找多一些data放進模型,訓練出一個更像汪明荃的AI也不是難事。


十:說到網絡安全隱患...大多數用家訓練AI翻唱的模型叫SO-VITS-SVC,在GitHub上看其代碼發現Readme檔加插一大段中國法律條文,開發團隊似乎也是中國背景的人居多(有教學片也提及這是來自「B站」的團隊),在GitHub的都是開源項目有問題的話也許不難被發現,但對這較敏感人還是得衡量風險了。

留言