ASR 噪声下的结构化抽取评测：从文本相似到实体归因

Posted on 2026-06-10 Edited on 2026-06-18

ASR 结果用于结构化抽取时，评测不能只看整句文本相似度。真实系统关心的是关键实体有没有抽对、位置是否合理、错误来自识别还是 NER、以及噪声会不会把下游结构化结果带偏。

因此，ASR + NER 的评测要从“文本像不像”转到“实体是否可归因”。

要解决的问题

同样的 WER 可能对应完全不同的下游影响。一个虚词错了可能无关紧要，一个地址、姓名、编号或时间错了会直接破坏结构化结果。

如果只看 ASR 文本 precision / recall 或整体 WER，无法解释实体错误来自哪里：是 ASR 没识别出来，还是 NER 没抽出来，还是文本规范化把实体改坏了。

主线判断

ASR 后接结构化抽取时，核心不是把 F1 算得更细，而是把错误拆回 ASR、抽取模型、span 对齐和后处理四个层次。

只要这四层混在一个分数里，系统就不知道该补语音数据、修实体模型、改对齐策略，还是调整规范化规则。precision 和 recall 只有在错误可归因时才有工程意义。

最小抽象

评测样本至少要同时保留三层信息：

reference_text
asr_text
reference_entities
predicted_entities
alignment
error_reason

alignment 用来把实体 span 对齐到 ASR 输出；error_reason 用来区分漏识别、替换、插入、边界错误、实体类型错误和规范化错误。

工程闭环

指标要拆成三组。

ASR 层看 WER/CER、关键词召回、实体词召回。

NER 层看 entity precision、entity recall、span F1、type accuracy。

归因层看实体错误中有多少来自 ASR，有多少来自抽取模型，有多少来自后处理规则。

这样才能决定下一步该做什么：补噪声数据、加热词、改 NER 训练集、调整规则，还是优化文本规范化。

反直觉点

实体 span 的绝对位置匹配在干净文本上合理，在 ASR 输出里往往过严。识别前面多出一个字，后面所有位置都会漂移；这时把实体判错，会高估下游模型问题。相反，全文搜索又过松：只要同名实体在整段文本里出现，就可能把远处的错误位置算成正确。

更稳的折中是局部对齐。先做 reference 与 ASR 输出的字符级对齐，再在标注实体附近开一个窗口判断预测是否命中。它允许 ASR 带来的轻微漂移，但不允许系统从全文任意位置捡一个同名字符串来冒充正确实体。

另一个反直觉点是 false positive 不一定都是模型错。标注集可能漏标，尤其是长尾实体。评测脚本应该把“疑似未标注实体”单独导出复核，而不是直接压进 FP。

排障路径

排障时先做实体级表，而不是直接看总体 F1。每个实体样本保留 reference 片段、ASR 片段、预测片段、局部窗口、实体类型、是否命中、错误原因。

然后按路径归因：reference 有而 ASR 无，是识别漏召回；ASR 有而抽取无，是 NER 漏召回；ASR 有、NER 有但边界偏移，是 span 问题；文本和 span 都对但类型错，是分类问题；预测多出来但 reference 没有，要进入漏标复核。

这张表做出来以后，下一步动作才清楚。ASR 漏召回高，补音频或热词；NER 漏召回高，补标注和负例；span 偏移高，改对齐；后处理错误高，修规则。

评测设计

大规模评测可以分两阶段。第一阶段用多模式匹配快速找候选实体，避免每条样本都跑重模型。第二阶段才进入局部对齐、类型判断和错误归因。

报告里不要只放一个 micro F1。至少拆出实体词召回、span F1、type accuracy、ASR-caused error rate、NER-caused error rate 和 normalization-caused error rate。这样即使总分不变，也能看到错误在系统内部是否发生迁移。

小样本推演

考虑两个 ASR 输出，它们的 WER 都是 10%。第一个错在虚词和语气词，结构化实体完整；第二个只错了一个关键实体，但下游字段全部偏掉。若评测只看 WER，这两个样本几乎等价；若看结构化输出，它们的影响完全不同。

再考虑同名实体重复出现的情况。全文搜索会把第二处同名实体当成第一处的命中，绝对 span 又会因为 ASR 插入一个字而全部判错。局部对齐窗口的价值就在这里：它既承认 ASR 会漂移，又要求预测出现在正确语义邻域内。

直接结论

ASR 噪声下的结构化抽取评测，关键不是把所有错误合成一个分数，而是把错误分解到 ASR、NER、span 对齐和后处理。只有错误可归因，系统才知道下一轮应该改模型、改数据还是改规则。

下一步阅读：语音对话合成数据工程：Schema、口语化与质量闸门