Meta推出全新翻译AI技术SeamlessM4T,支援近百种语言,并且文字翻译、语音转文字都难不倒,预计未来将加入旗下各大社群平台供用户使用。
近年积极投入AI领域的Meta,继5月发表多个大型语言模型后,如今又发表了能够翻译、转录近100种语言的AI模型SeamlessAlign,并且同样以开源的方式提供给所有人使用。
[xyz-ihs snippet=”In-article-ads”]Meta端出全新AI模型SeamlessAlign,能辨识近100种语言!
Meta在声明中表示,SeamlessM4T的诞生代表著基于AI的语音翻译、语音转文字领域的重大突破。按照Meta的说法,SeamlessM4T可以提供:
1. 辨识近100种语言的语音
2. 支援近100种语言的语音转文字
3. 语音翻译技术,可支援近100种输入语言及36种输出语言
4. 近100种语言的文字转文字技术
5. 文字转语音技术,可支援近100种输入语言及35种输出语言
虽然像哆啦A梦裡翻译蒟蒻般便利的道具还未出现,不过Meta声称SeamlessM4T会是人们能够更便利沟通的重要一步,这个模型无须其他模型协助,即可辨识各个不同语言,透过单一系统的方法减少了翻译错误及延迟,并提升了效率及品质,让不同语言的人能够更有效率地沟通。
Meta执行长朱克.伯格(Mark Zuckerberg)表示,“随著时间,我们会将这些AI翻译与转换技术成果整合到Facebook、Instagram、WhatsApp、Messenger及Threads。”
身为一间社群媒体公司,Meta已经投入翻译技术多年,外媒《TechCrunch》就形容SeamlessM4T是传承自Meta过去所研发的翻译模型No Language Left Behind,以及通用语音翻译工具(Universal Speech Translator)──一个少数支援台语的语音翻译系统。
而SeamlessM4T也是建立在今年5月发表的大规模多语言语音(Massively Multilingual Speech,简称MMS)大型语言模型上,该模型可转换超过1,100种语言,并可辨识4,000种口语语言。
[xyz-ihs snippet=”GoogleADresponsive”]Meta用大量公开资料练成,比当前模型更能应付不完美的状况
且如同前几次公布AI领域进展的作法,Meta宣布开放研究人员及开发人员基于SeamlessM4T进行开发与研究,同时将公开训练时所用数据集SeamlessAlign。Meta声称这是目前最大的公开多模式翻译数据集,将语音与文字校准过的资料高达44.3万个小时,并且还有2.9万小时的语音对语音校准资料。
Meta指出,他们从网络上抓取了数百亿个句子,以及约400万小时的语音资料作为最初的材料。虽然AI训练资料近几个月引发大量争议,许多创作者反弹科技公司迳自使用他们的心血,并要求为此付费,Meta强调他们所有资料都没有版权问题,主要来自开源或者授权的资料来源。
也因为如此庞大的资料,Meta声称SeamlessM4T在测试艰难条件的表现时结果更佳,与目前最好的模型相比,SeamlessM4T在有背景噪音、说话者换人的情况下准确度要分别高出37%及48%。
不过SeamlessM4T仍有些小问题存在,例如在看不出性别讯息时有10%的情况更喜欢翻译成男性,Meta认为这可能是因为训练资料中男性出现得较多。同时在个别语言中,有时SeamlessM4T翻译时会较容易出现有害言论,涉及性取向及宗教时偶尔也会出现问题。
Meta声称,SeamlessM4T的公开测试版本将会有针对输入及输出语音的筛选机制,会过滤掉不适宜或有害的内容,只不过Meta开源提供研究人员及开发者的版本中,并没有包含这项防护措施。
Meta指出,他们希望透过这项技术帮助不同语言的人们联繫彼此,并且将以此为基础探索这个基础模型如何创造新的通讯能力,“最终让我们更接近一个所有人都能被理解的世界。”
来源: 数位时代|香港01
[xyz-ihs snippet=”MoreTechNews”] [xyz-ihs snippet=”multiple-ads”]
10,221 views