首个支持30种方言混说语音大模型亮相-IT专家网

科技日报讯记者6月16日获悉，中国电信人工智能研究院发布业内首个支持30种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型。它打破了单一模型只能识别特定单一方言的困境，可同时识别理解粤语、上海话、四川话、温州话等30多种方言，是国内支持方言种类最多的语音识别大模型。

基于几亿用户和丰富应用场景优势，中国电信人工智能研究院构建了超30种、超30万小时的高质量方言数据库，推出星辰超多方言语音识别大模型。研发团队通过超大规模语音预训练和多方言联合建模，率先实现单一模型支持30种方言自由混说语音识别，是国内支持方言种类最多、覆盖人口最多的语音大模型。

团队首创“蒸馏+膨胀”联合训练算法，解决超大规模多场景数据集和大规模参数条件下，预训练坍缩的问题，实现1B参数80层模型稳定训练。星辰超多方言语音识别大模型也是业内首个开源的基于离散语音表征的语音识别大模型，将推理时语音传输比特率降低数十倍。