交大友聲雜誌社

林宏文專欄

華台客語攏ㄟ通　用AI搞定語音即時字幕──長問科技公司副總經理陳又碩、技術長鍾耀興(電信博)專訪

2024-02-21

長問科技創立於2009年，由一群陽明交大與北科大畢業的校友所組成，他們共同的指導教授是陽明交大的黃紹華、廖元甫教授。長問科技最初發展的技術是網路電話，在整合網路電話、視訊雲端等技術後，又發展出影像辨識及語音辨識等技術。

2020年新冠疫情爆發，看到每天疫情指揮中心都要召開記者會，便主動聯絡疾管署，提供即時字幕。過去這種字幕需要找人打字，有時要耗時六小時才能完成，但長問透過語音AI技術，2秒鐘可出逐字稿，並不斷進步進展到只延遲90秒就可以輸出100%正確字幕。2023年開始針對在地化語音，推出華、台、客、英語音辨識及語音合成服務，長問科技也成為國內語音AI的代表性廠商。

以下為陳、鍾兩位學長的第一人稱訪談摘要：

長問科技當初會成立最主要的緣由，是當時團隊在執行科專計畫，計畫結束之後需要要把這個計畫推廣到商業領域，所以結案的過程我們順勢成立了長問科技。當初計畫的內容為語音及網路電話相關的研發，所以公司創立初期提供的都是網路電話相關為主，像網路電話的平台、錄音系統等等。

2009年公司成立的時候，鍾耀興還在交大電信研究所攻讀博士，不過其實鍾耀興在北科大念大學跟研究所的時候，就有參與黃紹華老師網路電話系統的開發，所以即便後來到交大念博士班，過程中還是不斷跟黃紹華老師團隊有保持聯繫。

在網路電話之後，團隊把技術應用到視訊雲端的傳輸應用，主要是點對點的傳輸影像，當時是應用在一些IP攝影機，作為一些安全監控跟防護等應用。當時我們可以幫客人省下90%的伺服器頻寬跟費用，所以這樣的技術會讓國外很多大廠，像日本的SONY、韓國電信等等，都會被吸引來使用我們的技術跟雲端系統。後來我們又發展到雲、AI領域，公司主要是這樣的脈絡。

視訊雲端應用做了一陣子，客戶開始有一些進階的要求。他們希望能夠提供一些AI的判斷、影像辨識判斷等，我們幫助客戶在影像中做一些特殊的標註，比如說這是人還是車子還是特定的顏色或物件。但影像辨識的開發者很多，相對的競爭就多，於是我們決定朝向語音這條路。

不過語音的門檻比影像更高，而且光是語音資料的蒐集也是一個大門檻。除了語料收集外，找到「特定的語音」是有困難度的。再來就是語音的演算法比影像的演算法更困難一些，因為中文其實有很多的同音字，要怎麼精準的辨認語意，聲學還有語言學方面都是很大的挑戰。

疫情開始時，我們在語音AI發展才正起步，當時接到老師表達疫情記者會每天都在開，可是有一群聽障人士卻沒有辦法好好接收到訊息，希望能夠讓記者會快速上字幕，讓資訊傳達能夠更快更廣。

我們很積極聯絡指揮中心，希望把我們AI的技術應用上去。剛開始一個月我們是把語音辨識導入到事後的字幕。三個月後，指揮中心希望我們可以更快一點，於是著手研發即時的語音字幕，等於字幕能夠直接同步。當時即時字幕的正確率大概維持在93%左右。

會錯的大部分都是新的專有名詞，或是簡稱，比如說部桃、磐石艦，這就是AI的侷限。

跟指揮中心合作進行語音應用，也引來許多單位、公司行號找上我們。尤其像是在立法院，每天在開會當然是很需要做會議紀錄。別小看會議紀錄，這是一個非常花心力跟時間的工作，如果能結合語音辨識跟ChatGPT，可以節省很多文字整理跟產出的寶貴時間。AI的出現是用來取代人類？我們不這麼認為。我們認為AI是用來輔助人類，讓人類的工作效率更高。

未來來說，我們會集中在語音的部分，而且是針對台灣在地化的語音，我們讓我們的AI機器人可以聽得懂國語、台語、客語，甚至是聽得懂英文。其中台語跟客語只能靠自己努力完成。

之前chatbar都是文字的，但是現在不管透過國語、台語、客語發問，都會透過語音辨識轉成文字之後，去結合第三方大語言模型得到答案，再透過技術去合成我們想要的聲音，就可以合成像國語回答，或台語回答，或客語回答。也就是使用者再也不需要去敲鍵盤，可以直接發問，而對方直接用語音告訴我這個問題的答案是什麼，透過我們整個團隊的語音辨識跟合成技術去達到在地化語言的回應。

上一篇: 溫惠純(健康心理中心輔導老師)：植物療癒力！找回身心平衡

下一篇: 從以色列看台灣新創大環境──元智大學企業書院書院長魏煒圻(科管所博)專訪