Benchmarking speech-to-text robustness in noisy emergency medical dialogues: an evaluation of models under realistic acoustic conditions

Moser, Denis

doi:10.1093/jamiaopen/ooaf147

Benchmarking speech-to-text robustness in noisy emergency medical dialogues: an evaluation of models under realistic acoustic conditions

10.1093/jamiaopen/ooaf147

2025-12-01

0

OA

PDF

AI

原文链接

查看原文

摘要

En 中文

研究目的：评估6种支持德语的语音转文字（STT）系统在模拟急救医疗服务（EMS）环境中的转录准确性，重点关注在嘈杂和多语言现场条件下临床相关的性能表现。材料与方法：我们生成了一个包含99条合成紧急对话的语料库，并将其与生态学上有效的噪声类型（人群嘈杂声、交通噪声、公共空间噪声和救护车内噪声）叠加，在5种信噪比（SNR）条件下生成1980个带噪声的音频样本。每个样本均由6种STT系统（recapp、Vosk、Whisper v3变体和RescueSpeech）进行转录。我们使用5项指标评估性能：词错误率（WER）、医学词错误率（mWER）、TF-IDF余弦相似度、BLEU和语义嵌入相似度。统计模型量化了系统、噪声和SNR对转录保真度的影响。结果：recapp在各项指标上均持续优于其他所有系统。在开源模型中，Whisper v3 Turbo实现了最低的mWER和最强的短语级准确率（BLEU），而Whisper v3 Large在保留语义内容方面表现最佳。RescueSpeech和Vosk表现较差。人群噪声对性能的破坏性影响最大，而谈话噪声影响最小。性能下降在最低SNR（-2 dB）时最为显著。讨论：STT模型的准确性对声学条件高度敏感。在密集环境噪声下，临床相关的转录错误（mWER）最为频繁。Whisper v3 Turbo在准确性和效率之间取得平衡，表明其在EMS应用中具有较强潜力。结论：本研究引入了一个基于临床、抗噪声的STT评估基准，适用于EMS场景。它强调了领域特定指标和声学真实性的重要性，因为在部署STT系统时，转录错误可能带来安全关键性后果。本研究测试了6种德语STT系统在存在现实世界噪声的情况下，将口头紧急对话转换为书面文本的表现。我们聚焦于急救医疗服务（EMS），其中急救人员在嘈杂环境中工作，如拥挤的站点、交通和救护车内。我们创建了99条真实的紧急对话，并将其与4种常见噪声类型在5个音量水平下混合，然后比较每个系统的转录文本与正确文本。总体而言，一种商业系统（recapp）最为准确。在开源选项中，Whisper v3 Turbo在准确性和速度方面表现最佳，而Whisper v3 Large较好地保留了整体意义。名为RescueSpeech和Vosk的系统准确性较低。最有害的噪声是拥挤公共空间的噪声；简单的背景谈话影响最小。在噪声大于语音的极端困难条件下，准确性急剧下降。我们还测量了医学术语（如药物名称或操作）的错误，因为此类错误可能影响患者安全。我们的结果提供了一个实用的基准，用于为EMS选择STT工具，并表明测试必须反映真实的声学条件，而不仅仅是安静房间。

关键词:

speech recognition

emergency medical services

speech-to-text

word error rate

clinical documentation

Benchmarking speech-to-text robustness in noisy emergency medical dialogues: an evaluation of models under realistic acoustic conditions

摘要

AI总结

期刊

学者

机构

引用论文

被引论文