ASR-Multilingual

前言

    多语种语音识别overview

为什么需要多语种语音识别?

1、优化低资源语种的识别效果: 世界上大部分的语种存在数据匮乏的现象, 多语种语音识别具备一定潜力提升低资源语音识别的效果, 如采用迁移学习,
基于识别效果较好的语种模型或是多语种模型进行调优。【关键】

2、优化口音识别:实际的普通话或英文识别应用场景包含较多的方言口音识别问题反馈,实现自由说需针对性优化口音问题。

3、优化模型部署流程:随着识别语种的不断增加,部署和维护每一种语种的几个模型会变得很麻烦,多语种免切换可在一定程度上优化系统性能。

语音识别的技术发展

GMM-HMM -> DNN-HMM -> RNN-E2E -> attention-E2E -> joint network
本质还是神经网络革新带动技术进步。
当前传统声学模型+语言模型的识别系统仍然在工业界活跃, 主要是传统的识别系统每个组件更独立, 有更丰富的调优方式。相对来说端到端语音识别的调优方式仍在发展, 但已是未来趋势—-做传统的赶紧学。

现有的多语种识别技术路线

1、跨语种迁移学习(cross-lingual transfer learning)
2、多任务学习(multi-task learning)
3、自监督学习(self-supervised learning)…我觉得和1有一些交集, 本质是预训练、nlp带火的
4、音素集共享(common phone)
5、可能还有吧。。。有些上面几个可以囊括了

References

[1] https://arxiv.org/abs/2202.12576v1