SpeechDx: A Multi-Task Benchmark for Clinical Speech AI

摘要

17339v1 Announce Type: new Abstract: Speech offers a uniquely informative window into health by simultaneously engaging neurological, motor, respiratory, and vocal systems。

and speech clinical tasks across

2026-06-17 1 阅读约1分钟阅读 Sejal Bhalla, Larry Kieu, Aina Merchant, Eyal de Lara, Alex Mariakakis

arXiv:2606.17339v1 公告类型：新摘要：语音通过同时参与神经系统、运动系统、呼吸系统和发声系统，为了解健康提供了一个独特的信息窗口。目前的临床语音人工智能方法在很大程度上是通过孤立的针对具体情况的研究取得进展的，这使得结果难以比较，概括性也难以评估。我们推出 SpeechDx，这是一个针对临床语音 AI 的大规模基准，涵盖 12 个数据集和 27 个任务，涉及不同的健康状况。 To enable evaluation across shared clinical mechanisms, SpeechDx structures tasks by the stage of speech production they disrupt: conceptualization, formulation, and articulation.该基准测试通过包含有限标记数据的任务并评估多个数据集的相同健康状况，区分具有临床意义的模式和数据集伪影来测试泛化能力。我们在所有任务和零样本交叉条件传输下系统地评估了 12 个最先进的音频编码器。结果表明，大规模语音模型代表了最强的总体基线，特定领域的模型仅在紧密匹配的任务上提高了性能，并且当前的表示形式无法可靠地概括整个临床语音领域。 SpeechDx 建立了一个共享评估框架，用于跟踪通用临床语音表征的进展

订阅66必读