交大人共享知識與情感交流的平台

林宏文專欄
本土語言消失中!語音AI協助復育——陽明交大智能系統研究所教授廖元甫(電信80)專訪

臉書(Meta)創辦人祖克柏日前秀了一段影片,他與一位工程師分別用英文及閩南語交談,但彼此能夠立即透過語音辨識聽懂對方在說什麼,這支影片幾天內就吸引全世界目光。這項技術背後有三位台灣人貢獻良多,一位是Meta軟體工程師陳鵬仁,他是Meta翻譯團隊的成員之一,另兩位是台灣研究語音辨識的學者,研究台語語料庫多年的陽明交通大學智能系統研究所教授廖元甫,和研究台語語音AI的台大電機系副教授李宏毅。


廖元甫說,他們的團隊從2018年開始建立台語語料庫,當時覺得台語雖是最多台灣人說的第二種語言,但卻完全沒有資料庫保留下來,因此總計收集六百人的台語資料,語音總長達三百小時。結果,這些資料被Meta看中,直接來台取得授權。廖元甫的團隊也曾開發多項語音技術,例如疫情期間,陳時中部長每天召開記者會,語音內容可以即時翻成電視字幕,還有在電影《流麻溝15號》裡面,蔣經國總統的原音重現,都是語音辨識技術能夠做到的應用。以下為廖元甫教授的第一人稱分享。

Meta做這個的主要目的,是要建立溝通無礙的元宇宙,我們其實是搭他們研究方面的順風車,做為台語語料的提供者,並沒有實際參與他們的研究,比較像是最後臨門一腳提供有標準答案材料。

而我們早在至少五年前,做語料庫主因是為了「開發台語AI」,幫忙保存台語。因為即便現在會講台語的人不少,但是可能年紀都偏大,年輕的學生通常最多就會聽,等到他們的下一代可能連聽都不會聽了,那台語就死掉了。

語料是建立語音系統基礎,需要有很多人講話的台語跟文字,一句語音對一句文字,要讓電腦要能聽得懂台語的關鍵,就是它要能夠把語音轉寫出來。我們找了十幾個老師,廣邀他們學校附近找會講台語的人來錄,總共找了六百人,每個人大概錄三十分鐘,所以合起來是三百小時。不過比較特別的是我們是為了語音辨認做的,所以每個來錄音的人我們就給他背六隻麥克風同時錄。面對各地口音不同的問題,還橫跨整個台灣找人錄音,讓電腦同時聽懂各種不同腔調的台語。

同樣一句話,每個人在不同時間講,不同環境講,其實都不一樣,這個跟文字翻譯不一樣。語音對語音這樣比較難,要做機器翻譯需要有成對的資料,比如說一句中文怎麼講,對一句台語怎麼講,讓電腦去學他們之間的關係。但是目前很缺乏這類的資料,尤其像台語對英文,幾乎沒有。

因此Meta選擇先把台語對到中文,中文再去對到英文,剩下比較麻煩就是台語怎麼轉中文。切入點很有趣,我們現在最大的台語的語料其實就是「台灣的鄉土劇」,因為它有字幕,所以多多少少可以把字幕對起來,雖然字幕跟講話不見得可以完全對齊,但是還是可以用電腦去選擇有用的地方拿進來用,所以這就變成目前最好的台語AI語料庫。

台語以滿快的速度消失中,內政部有做人口普查,大概每十年做一次,最近一次是2020年,就會調查每個人主要用的語言是哪種語言,十年前調查主流用台語的還有7成,現在只剩3成,那3成裡面去看年輕人更可怕,十二歲以下只剩6%、7%而已,到幼稚園就是2%、1%。所以可以想像,我們這一代年紀比較大的人走了以後,台語幾乎就沒什麼人用了,這其實是立即的危機。

媒體幾乎都是講中文,台語、客語,甚至原住民語被排擠掉。這種東西本來就是活的,你越用越豐富,越不用就慢慢凋零。語言乘載了我們文化裡面從古至今的想法,甚至可以包含著以前發生過什麼事情,或是以前有什麼生活的智慧,如果語言消失,那就都沒有了。

台語、客語等目前最嚴重的問題就是「新詞」的問題,有一些新詞完全都不會用台語或客語講,還是媒體的力量最大,像口罩的台語,我想疫情開始之前都沒有人會講,現在聽了這麼多次宣導,至少都知道該怎麼講了。

另外,我們也做「台語合成器」,像剛剛聽的是一個女生的聲音,其實我們可以把他轉成任意一個人的聲音。甚至像你可能只會講華語,但卻可以用你的聲音,轉化成「你講台語」,這個我們叫語音轉換,就是把系統輸出的音色換成另一個人的音色。

《流麻溝十五號》電影裡有一場是蔣經國總統的演講,一開始找配音員配音,當然配音員學的調調是對的,但是音色不像,所以他們就找我們幫忙,我們利用這個語音合成器,再把十幾分鐘輸出轉成蔣經國總統的聲音,觀眾會覺得好像真的是他在講,這是這部分的延伸應用。