交大人共享知識與情感交流的平台

林宏文專欄
華台客語攏ㄟ通 用AI搞定語音即時字幕──長問科技公司副總經理陳又碩、技術長鍾耀興(電信博)專訪

長問科技創立於2009年,由一群陽明交大與北科大畢業的校友所組成,他們共同的指導教授是陽明交大的黃紹華、廖元甫教授。長問科技最初發展的技術是網路電話,在整合網路電話、視訊雲端等技術後,又發展出影像辨識及語音辨識等技術。

2020年新冠疫情爆發,看到每天疫情指揮中心都要召開記者會,便主動聯絡疾管署,提供即時字幕。過去這種字幕需要找人打字,有時要耗時六小時才能完成,但長問透過語音AI技術,2秒鐘可出逐字稿,並不斷進步進展到只延遲90秒就可以輸出100%正確字幕。2023年開始針對在地化語音,推出華、台、客、英語音辨識及語音合成服務,長問科技也成為國內語音AI的代表性廠商。

以下為陳、鍾兩位學長的第一人稱訪談摘要:

長問科技當初會成立最主要的緣由,是當時團隊在執行科專計畫,計畫結束之後需要要把這個計畫推廣到商業領域,所以結案的過程我們順勢成立了長問科技。當初計畫的內容為語音及網路電話相關的研發,所以公司創立初期提供的都是網路電話相關為主,像網路電話的平台、錄音系統等等。

2009年公司成立的時候,鍾耀興還在交大電信研究所攻讀博士,不過其實鍾耀興在北科大念大學跟研究所的時候,就有參與黃紹華老師網路電話系統的開發,所以即便後來到交大念博士班,過程中還是不斷跟黃紹華老師團隊有保持聯繫。

在網路電話之後,團隊把技術應用到視訊雲端的傳輸應用,主要是點對點的傳輸影像,當時是應用在一些IP攝影機,作為一些安全監控跟防護等應用。當時我們可以幫客人省下90%的伺服器頻寬跟費用,所以這樣的技術會讓國外很多大廠,像日本的SONY、韓國電信等等,都會被吸引來使用我們的技術跟雲端系統。後來我們又發展到雲、AI領域,公司主要是這樣的脈絡。

視訊雲端應用做了一陣子,客戶開始有一些進階的要求。他們希望能夠提供一些AI的判斷、影像辨識判斷等,我們幫助客戶在影像中做一些特殊的標註,比如說這是人還是車子還是特定的顏色或物件。但影像辨識的開發者很多,相對的競爭就多,於是我們決定朝向語音這條路。

不過語音的門檻比影像更高,而且光是語音資料的蒐集也是一個大門檻。除了語料收集外,找到「特定的語音」是有困難度的。再來就是語音的演算法比影像的演算法更困難一些,因為中文其實有很多的同音字,要怎麼精準的辨認語意,聲學還有語言學方面都是很大的挑戰。

疫情開始時,我們在語音AI發展才正起步,當時接到老師表達疫情記者會每天都在開,可是有一群聽障人士卻沒有辦法好好接收到訊息,希望能夠讓記者會快速上字幕,讓資訊傳達能夠更快更廣。

我們很積極聯絡指揮中心,希望把我們AI的技術應用上去。剛開始一個月我們是把語音辨識導入到事後的字幕。三個月後,指揮中心希望我們可以更快一點,於是著手研發即時的語音字幕,等於字幕能夠直接同步。當時即時字幕的正確率大概維持在93%左右。

會錯的大部分都是新的專有名詞,或是簡稱,比如說部桃、磐石艦,這就是AI的侷限。

跟指揮中心合作進行語音應用,也引來許多單位、公司行號找上我們。尤其像是在立法院,每天在開會當然是很需要做會議紀錄。別小看會議紀錄,這是一個非常花心力跟時間的工作,如果能結合語音辨識跟ChatGPT,可以節省很多文字整理跟產出的寶貴時間。AI的出現是用來取代人類?我們不這麼認為。我們認為AI是用來輔助人類,讓人類的工作效率更高。

未來來說,我們會集中在語音的部分,而且是針對台灣在地化的語音,我們讓我們的AI機器人可以聽得懂國語、台語、客語,甚至是聽得懂英文。其中台語跟客語只能靠自己努力完成。

之前chatbar都是文字的,但是現在不管透過國語、台語、客語發問,都會透過語音辨識轉成文字之後,去結合第三方大語言模型得到答案,再透過技術去合成我們想要的聲音,就可以合成像國語回答,或台語回答,或客語回答。也就是使用者再也不需要去敲鍵盤,可以直接發問,而對方直接用語音告訴我這個問題的答案是什麼,透過我們整個團隊的語音辨識跟合成技術去達到在地化語言的回應。