前言
论文《Listen Attend and Spell》LAS模型简介及代码复现
论文地址: https://arxiv.org/abs/1508.01211v2
论文核心思想
语音识别模型,模型分为两个部分:listener和speller:
listener是三角形的pyramidal bidirecional lstm。
spller是基于attention的decoder,论文的label是以字符为单位的。
Encoder:
Decoder:
论文复现代码参考
pytorch版: https://github.com/AzizCode92/Listen-Attend-and-Spell-Pytorch