由聽AI張國榮到訓練AI汪明荃得出的十點啟示

一：先弄清AI翻唱的原理。撇除一切高深術語，制作AI歌手翻唱簡單而言分兩個部分。舉個例子，假如我要用AI盧凱彤唱林二汶的《最後的信仰》，第一是是輸入一堆盧凱彤的唱歌片段(說話片段也可)，讓電腦學習「盧凱彤的歌聲是怎樣的」；第二是提供《最後的信仰》這歌的人聲(vocal)部分，是不是林二汶唱的這裡無關重要，電腦只知道要把交給它的歌聲，換成它學會的盧凱彤聲音就對了。所以，在兩個部分裡都有重要一環，就是把人聲從音樂分離出去，交給電腦訓練的和指派給它替換的歌聲，都必須是純人聲。我是去到研究AI翻唱才知道在網上可以找到不少用AI技術把歌曲去人聲的工具(例如線上工具Vocal Remover和需要下載的Ultimate Vocal Remover)，這就明白了為甚麼YouTube很容易找到最新推出的流行曲的純音樂版，那AI去人聲效果比起以自動去人聲作為賣點的唱K神器強到不知哪裡去。

二：有些歌手不宜做AI。第一次聽AI翻唱廣東歌是AI張國榮的《到底發生過甚麼事》和《時光倒流一句話》，聲音的相似程度驟聽是有點驚喜的，但完全沒有張國榮的神髓。張國榮的特色不在聲線而在難以量化的感染力和感情，而且不同年代的張國榮唱腔也不盡相同，你很難說「如果張國榮唱這首歌」會是怎樣個唱法，也更難重現張國榮的演繹了。黃家駒同理，他那種搖滾精神的感染力也是AI模仿不來的，有些歌本質上跟黃家駒已經格格不入，套用到AI黃家駒身上有時更感覺尷尬，也許值得做的AI黃家駒翻唱恐怕只有三人時代的Beyond吧。

三：零瑕疵歌手AI較易模仿？ 如果AI歌手的弱點是沒有感情，那照計訓練「零瑕疵靚聲王」的AI會有更好效果，馬上想起的粵語有李克勤，國語有林志炫，可是暫時也不見有他們的AI仿製品，否則可以驗證我的假設。如果有AI林志炫，正經的我想聽它翻唱方大同2012或之前任何作品：不正經的，我想聽黃明志《擊敗人》！

四：AI翻唱很容易聽厭。一來以AI現時能力模仿歌手也只有形似沒有神似，二來很容易聽到發音不準如「譚仔阿姐」附體(這也是AI翻唱廣東歌之一大難處)，三來經常重重覆覆幾個歌手互相「翻唱」對方的歌(例如陳奕迅姜濤張敬軒林家謙)，或者一首金曲被各種AI唱到爛(例如《到底發生過甚麼事》至少找到四個AI翻唱)，聽多幾首已缺乏新鮮感。

五：為甚麼AI孫燕姿可以量產？當今華語歌壇最紅的AI歌手應該是孫燕姿了，翻唱作品未到上千也至少過百吧，可能是因為訓練其AI用上充足數據和時間，更有可能是因為有現成model可以讓人用簡單的線上工具制作AI孫燕姿的歌曲，正如外國也有些AI cover工具，讓你可生產指定的某些歌手名人的歌聲。

AI生成孫燕姿(網上圖片)

六：要反差夠大才有驚喜。所以爆紅的是AI尹光，唱《一人之境》《Dear My Friend,》未夠，還要唱日文、泰文甚至《Let It Go》。如果大家都是年代相若的活躍歌手，真人翻唱也非遙遠的事，確實沒有必要聽AI翻唱。例如AI王菀之唱《隱形遊樂場》該有話題吧？但其實找「真王菀之」翻唱也不是沒有機會啊。

七：要夠似，有時還得專人代唱。為甚麼AI尹光《一人之境》進化到可以模仿著尹光「原來已很高呀興」？其實AI未強大到模仿聲音以外的表達，只是有人模擬了尹光的唱法再用AI把訓練好的尹光人聲套進去，但因為要自己錄一個翻唱，出現頻頻走音兼唱錯歌詞，著實有點失禮了尹光這類的唱家班。

八：要選對歌，也要選對版本。另一首AI尹光代表作《Dear My Friend,》，參考的是古巨基的翻唱而非姜濤原版，字正腔圓的古巨基令AI尹光也容易唱對歌詞，其實頭段也不太似，到副歌才暫入佳境越來越有「尹味」，配上尹光演唱會影片作MV加「光B」支持者留言令這歌效果更佳。古巨基在Music Panda選唱姜濤這代表作時，也沒有想到不久之後會造就AI尹光的熱潮吧。也例如量產型AI孫燕姿，我覺得最好聽的是翻唱《一場遊戲一場夢》(也就是《幾分傷心幾分痴》國語版)，伴奏音樂也不是王傑原裝版本，重新編曲更能配合孫燕姿的聲線。

九：訓練AI歌手比想像中容易。作為半個IT人兼十九年音樂博客，看到網上AI Cover的教學影片(例如這段Jarods Journey的YouTube影片)也是躍躍欲試，本著「人做我唔做，殺出新血路」的精神，我的第一個實驗是訓練AI汪明荃翻唱Serrini《網絡安全隱患》，一開始只是試一下影片提及的program能否順利執行，只提供少量data(一開始只用了《熱咖啡》一首歌的vocal)加訓練很短時間(第一個model只訓練了不足半小時)。顯得粗製濫造是意料中事，雖然副歌唱到似韓文多過廣東話令我凌晨12點對著電腦爆笑當晚兩點才睡著，但總的而言比想像中順利，至少已經稍有汪明荃影子，更驚喜的是《網絡安全隱患》中間的英文(即是「you are securely connected to our very private network」那段)反而難不到AI汪阿姐(留意《熱咖啡》全首是一個英文字也沒有)，應該是英語發音在原先的AI模型有先天優勢吧。似乎只要再找多一些data放進模型，訓練出一個更像汪明荃的AI也不是難事。

十：說到網絡安全隱患...大多數用家訓練AI翻唱的模型叫SO-VITS-SVC，在GitHub上看其代碼發現Readme檔加插一大段中國法律條文，開發團隊似乎也是中國背景的人居多(有教學片也提及這是來自「B站」的團隊)，在GitHub的都是開源項目有問題的話也許不難被發現，但對這較敏感人還是得衡量風險了。

搜尋此網誌

當下音樂

由聽AI張國榮到訓練AI汪明荃得出的十點啟示

留言