普通 VAD 只判断“有没有人声”,Personal VAD 还要判断“是不是目标说话人”。在端侧语音识别里,这个区别很关键:系统不仅要过滤静音和噪声,还要在多人说话场景下保留目标说话人的语音片段。

这篇文章记录一次把 Personal VAD 2.0 论文思路落到可训练工程骨架时的设计取舍。重点是模型接口、外部 speaker embedding、数据 manifest、训练闭环和标签对齐风险。

项目代码:https://github.com/fclearner/Personal-vad-2.0

Read more »

前言

    CTC(Connectionist Temporal Classification)可以在未对输入序列与输出标签进行FA(Force Alignment)的情况下完成时序对齐及分类工作,主要用于语音识别及手写识别[1]。

Read more »

前言

    CMVN在语音识别中的作用

Read more »

前言

    论文《Listen Attend and Spell》LAS模型简介及代码复现

Read more »

前言

    语音信号预处理相关流程简介, 包括预加重、分帧加窗、DFT、FBank等

Read more »

典型相关分析在稳态视觉诱发电位频率识别方面的应用

前言

    随着脑机接口的快速发展,典型相关分析在稳态视觉诱发电位频率识别方面占据着重要的地位,由于脑电信号非线性的特征,使得机器学习算法在该领域的使用不具备优势,而比较信号同向变化相似率的CCA算法却取得了十分出色的效果。本文将对于CCA在SSVEP方面的应用发展以及优缺点进行介绍,希望为国内的脑机接口博客发展做出贡献。

Read more »

前言

以前一直想自己写个博客网站,无奈一直没有时间,最近在师兄和好兄弟的推荐下,使用了hexo这一基于Node.js的静态博客框架,并将其托管于github上。总算是圆了个梦!

Read more »
0%