前言
wenet数据预处理
数据准备
wenet是参考kaldi、Espnet等开源ASR项目开发的,因此继承了很多开源项目的优点。在数据准备阶段,WeNet 仅需要准备 kaldi 风格的 wav.scp 列表文件和text标注文件
TODO wav.scp图
TODO text图
wenet会把wav.scp及text整理成需要的data.list(参考run.sh)
TODO data.list图
(也可以采用kaldi提取特征,可以参考librispeech及train_deprecated.py,这个似乎要弃用了)
对于data.list,在kaldi 进行训练之前,会把数据转为两种类型【shard, raw】的其中一种, 参考dataset.py及processor.py.
其中,
shard:
a、url_opener:在线音频文件加载.
#TODO url_opener函数截图
b、tar_file_and_group:将文件打包成tar文件,tar文件流加载.
#TODO b、tar_file_and_group函数截图
raw: 原始的data.list
数据类型转换完成后,统一采用torchaudio进行数据处理。