当微软和谷歌争论谁的AI聊天机器人更好时,这并不是机器学习和语言模型的唯一用途。除了传言计划在今年的年度I/O活动中展示20多款由人工智能驱动的产品外,谷歌正在朝着构建支持1,000种不同语言的人工智能语言模型的目标迈进。在周一发布的更新中,谷歌分享了有关通用语音模型(USM)的更多信息,该系统被谷歌描述为实现其目标的“关键的第一步”。
去年11月,该公司宣布计划创建一个支持1,000种世界上使用最广泛的语言的语言模型,同时还展示其USM模型。谷歌将USM描述为“最先进的语音模型家族”,拥有20亿个参数,经过1200万小时的语音和280亿个句子的训练,涵盖300多种语言。
USM已被YouTube用于生成隐藏式字幕,它还支持自动语音识别(ASR)。这会自动检测和翻译语言,包括英语、普通话、阿姆哈拉语、宿务语、阿萨姆语等。
目前,谷歌表示USM支持100多种语言,并将作为构建更广泛系统的“基础”。Meta正在开发一种类似的AI翻译工具,该工具仍处于早期阶段。您可以在Google此处发布的研究论文中阅读有关USM及其工作原理的更多信息。
该技术的一个目标可能是在增强现实眼镜内部,就像谷歌去年在其I/O活动中展示的概念,能够检测并提供出现在你眼前的实时翻译。不过,这项技术似乎还有些遥远,谷歌在I/O期间对阿拉伯语的错误表述证明了出错是多么容易。