Personal VAD 2.0 工程化:外部说话人嵌入与训练闭环
普通 VAD 只判断“有没有人声”,Personal VAD 还要判断“是不是目标说话人”。在端侧语音识别里,这个区别很关键:系统不仅要过滤静音和噪声,还要在多人说话场景下保留目标说话人的语音片段。
这篇文章记录一次把 Personal VAD 2.0 论文思路落到可训练工程骨架时的设计取舍。重点是模型接口、外部 speaker embedding、数据 manifest、训练闭环和标签对齐风险。
普通 VAD 只判断“有没有人声”,Personal VAD 还要判断“是不是目标说话人”。在端侧语音识别里,这个区别很关键:系统不仅要过滤静音和噪声,还要在多人说话场景下保留目标说话人的语音片段。
这篇文章记录一次把 Personal VAD 2.0 论文思路落到可训练工程骨架时的设计取舍。重点是模型接口、外部 speaker embedding、数据 manifest、训练闭环和标签对齐风险。