dowsil圖/閩南語也會通!Meta 發佈全新 AI 技術支援的非書寫語音翻譯系統。(Meta提供)
Meta今(20)日宣布推出一個史無前例的「閩南語」人工智慧翻譯系統,這項技術讓使用閩南語的人能和使用英語的人對話。
至今為止,AI 翻譯主要著重於各種書寫語言。但在全球超過 7,000 種的現存語言中,包括閩南語在內將近半數主要是以口語表達,而沒有標準或廣泛使用的書寫文字系統。這導致業者無法使用標準技術為這類語言打造機器翻譯工具,因為標準技術需有大量的書寫文字來訓練 AI 模型。
該開放原始碼的翻譯系統是 Meta Universal Speech Translator(通用語音翻譯工具)專案的一部分,該專案致力於開發新的 AI 方法,希望最終能為所有現存語言進行即時語音翻譯,包括主要以口語表達的語言。
圖/閩南語也會通!Meta 發佈全新 AI 技術支援的非書寫語音翻譯系統。(Meta提供)
Meta表示,著手打造閩南語翻譯系統時,面臨的一個重大障礙就是是否能夠蒐集到足夠的資料。閩南語是所謂的資源匱乏語言,這意味著與西班牙文或英文等語言相比,該語言尚未有足夠的訓練資料。此外,將英語翻譯成閩南語的翻譯人員相對來說很少,因此更難以蒐集資料並加上註解來訓練模型。
Meta利用中文作為中間語言,以建立偽標籤和人工翻譯,意思是我們先將英語(或閩南語)語音翻譯成中文文字,接著再翻譯成閩南語(或英語),然後新增至訓練資料中。此方法利用了資源充足的相似語言的資料,藉此大幅改善了模型成效。
另一個產生訓練資料的作法是語音探勘。Meta使用預先訓練好的語音編碼器,便能透過編碼方式將閩南語語音嵌入內容加入到其他語言的相同語意空間中,而無須取得閩南語的書寫文字。閩南語語音可以和擁有相似語意嵌入內容的英語語音和文字配對。Meta接著從文字來合成英文語音,產生平行的閩南語和英語語音。
展望未來,Meta表示,在目前的階段中,能夠讓使用閩南語的人士與使用英語的人士對話,該模型仍在開發中,而且每次只能翻譯一個完整句子,但已朝向各語言同步翻譯的目標邁開一步。
影像資訊:Meta
◤編輯最愛◢
👉2022網友熱議新手機!這裡買最省