关于响度计算标准 ISO 532
标准化响度感知的重要性
声音的量化是声学分析的基础,然而声压级并不能直接对应于人的响度感觉。人耳感知是一个复杂的过程,受声音频率成分、掩蔽效应、声音的持续时间以及模式等影响。例如,人耳对中频范围(约 2–4 kHz)的声音最为敏感。因此,两个具有相同声压级但频率成分不同的声音可能会引起截然不同的响度感觉。
客观物理测量与主观感知之间的这种差异,使得标准化的响度计算方法成为必要。此类标准旨在提供一个通用、客观且可验证的框架,用于估计人耳可能感知到的声音响度。这对于众多科学和工程应用至关重要,包括设计更安静的产品、评估环境噪声、优化音频系统以及法规遵从性。如果没有标准化的程序,跨不同研究、产品或环境的响度比较将无法实现,从而阻碍噪声控制和音质工程的进展。
ISO 532 标准系列概述
国际标准化组织 (ISO) 532 系列标准在提供国际公认的响度计算方法方面发挥着关键作用。该系列标准提供了不同的方法,反映了心理声学知识和建模技术的演变。作为背景,ISO 532 系列包括 ISO 532-1:2017,“声学-响度计算方法-第1部分:Zwicker 方法”。它基于Zwicker临界频带分析和特征响度叠加,提供了成熟的流程。
本文侧重于对该系列另外两个关键组成部分的比较:ISO 532-2:2017 和最新的 ISO 532-3:2023。目的是描述这两种标准之间的具体差异,检查它们的基础心理声学模型、预期的应用范围(稳态或时变声音)、对双耳听觉的处理以及得到的响度指标的性质。
ISO 532 系列的发展和完善表明,科学界一直在持续追求能够更准确预测人类响度感知的模型。从早期方法,例如基于 Stevens方法(ISO 532A)或Zwicker 响度(ISO 532B,1975年发布)到 ISO 532-2 中基于 Moore-Glasberg方法论以及 ISO 532-3 中的高级 Moore-Glasberg-Schlittenlacher 算法,每一步都力求融入对复杂听觉现象更深入的理解。这些现象包括听觉系统的频率选择性(通常使用临界频带建模)、频谱和时间掩蔽、大脑处理来自双耳输入的复杂方式(双耳处理)以及对随时间变化的声音的感知。
认识这一演变途径对于用户至关重要,因为它阐明了为什么开发 ISO 532-3 这样的新标准——不仅仅是作为替代方案,而是作为旨在解决早期方法的特定局限性并提供更准确或更全面的响度预测的解决方案,特别是对于在大多数实际场景中遇到的动态和复杂声音。
ISO 532-2:2017
针对稳态声音的Moore-Glasberg方法
定义
ISO 532-2:2017 的标题是“声学-响度计算方法-第 2 部分:Moore-Glasberg 方法”。该标准于2017年发布,规定了一种被认为是稳态声音响度的计算流程。在该标准的背景下,稳态声音是指其宏观声学特性(例如其总体声级和频谱组成)在相关观察期内保持统计上恒定的声音。
Moore-Glasberg响度模型:关键组成部分
ISO 532-2中规定的方法基于 Brian C. J. Moore 教授和 Brian R. Glasberg 博士在2007 年在美国声学学会杂志上发表的的响度模型,该模型计算方法如下:
外耳和中耳传递函数:对输入声谱进行转换,以解释外耳和中耳的滤波效应。
激励模式计算:然后使用转换后的频谱计算激励模式,该模式表示耳蜗内基底膜上的活动分布。此阶段模拟内耳执行的频率分析。
特征响度计算:将激励模式转换为特征响度模式。特征响度 (N′) 是作为临界频带(以Bark或 ERBN为单位)函数的响度密度度量。它量化了每个频带对总响度感觉的贡献。
总响度积分:最后,通过在所有临界频带上积分特征响度来获得总响度 (N)。这些步骤,与其他响度模型在概念上具有相似性。
双耳抑制在感知响度中的关键作用
ISO 532-2 Moore-Glasberg模型的一个关键且显著的特征是其明确包含了双耳抑制。双耳抑制是指一种心理声学现象,即“在给定频率区域内,一只耳朵的强输入会降低另一只耳朵在附近频率区域内较弱输入的有效声压”。这是人类听觉系统处理和整合双耳的声音的基础属性,影响整体感知响度。
与假定双耳独立或仅仅简单叠加每只耳朵感知到的响度的模型相比,考虑双耳抑制影响标志着一个显著的改进。在ISO 532-2采用的模型中特意加入这种机制,可以在典型的双耳听觉条件下对响度进行更符合生理现实和感知准确的估计。这是一个显著的进步,因为双耳听觉不仅仅是两个独立听觉通道的运作;听觉系统不断整合和比较来自双耳的输入,从而产生复杂的感知结果。
与其他标准的关系(例如ANSI S3.4-2007)
ISO 532-2:2017中规定的响度模型与美国国家标准ANSI S3.4-2007 “稳态声音响度计算程序”非常相似。两者均源于Moore 和 Glasberg 的研究。其关键区别是“ISO 532-2 中的模型包含了双耳抑制”,而ANSI S3.4-2007 标准中并未包含此功能。这一差异突显了ISO 532-2 在稳态声音双耳响度感知建模方面的进步。
典型应用和局限性
ISO 532-2特别适用于评估那些高度时间稳定性的声音的响度。典型应用包括评估持续运行的机械(例如,恒定负载下的风扇、泵、发电机)产生的噪声、某些类型的供暖、通风和空调 (HVAC) 系统,或在测量期间保持相对恒定声级和频谱的特定环境噪声。
ISO 532-2的主要局限性在于:对于随时间在声级或频谱内容上发生明显变化的声音而言,其准确性较低。针对稳态条件优化的模型,无法完全捕捉感知波动或瞬态声音。这一限制是推动ISO 532-3 开发的一个重要因素,ISO 532-3专门设计用于处理此类时变声音,准确量化这些常见的、时间上变化、ISO 532-2 无法处理的声音。
ISO 532-3:2023
针对时变声音的Moore-Glasberg-Schlittenlacher方法
基本原理
ISO 532-3:2023的标题为“声学-响度计算方法-第3部分:Moore-Glasberg-Schlittenlacher方法”。该标准于2023年7月正式发布。其制定旨在扩展ISO 532系列的功能,以准确评估时变声音的响度,这一类别涵盖了日常生活中遇到的大多数声学信号。重要的是,虽然其主要关注点是动态声音,但 ISO 532-3 也适用于稳态声音,使其成为声学专家工具箱中更通用的工具。
该标准适用于多种输入信号。响度计算可以针对“使用单个传声器录制的声音、使用人工头录制的声音,通过耳机呈现的声音,或使用传递到耳机的电信号”进行。这种适应性使其能够应用于广泛的测量环境,从现场录音到使用复杂的双耳录音设备进行的实验室评估,或在基于耳机的评估中直接使用电信号。
Moore-Glasberg-Schlittenlacher算法
ISO 532-3中所体现的方法基于“Moore-Glasberg-Schlittenlacher算法”。这一命名表明该算法建立在Moore-Glasberg 响度模型(ISO 532-2)的基础之上,但结合了进一步的发展,以专门解决时间声音特性的感知问题。
量化时间响度
ISO 532-3能够计算和输出两种不同的、对时间敏感的响度量:
短期响度:该指标定义为“声音的瞬时响度,例如语音声音中的一个词或一段音乐中的一个音符”。它旨在捕捉感知响度中快速波动的成分,反映听觉系统跟踪声音强度相对快速变化的能力。
长期响度:这被描述为“较长声音片段的响度,例如整个句子或一个乐句”,通常对应于持续时间在 1 到 5 秒之间的声音片段。该指标反映了在稍长、感知上连贯的持续时间内响度的积分。
对于大多数日常声音,“短期响度和长期响度都会随时间变化”。这种变化信号与稳态声音模型产生的单一响度值不同,对于理解非稳态信号的感知影响至关重要。这种计算能够更准确地表示动态的、日常声学环境中响度的感知。许多感兴趣的声音,例如语音、音乐、交通等环境噪声以及各种工业声音,本质上都是非稳态的。ISO 532-3 处理这些变化声音并提供特定指标以反映人耳感知时变响度能力,对于评估人类对这些常见声学刺激的反应至关重要。
处理复杂声场和双耳听觉
ISO 532-3旨在处理现实复杂声场,支持输入双耳信号。能够准确地预测时间模式和频谱不相同的双耳声音整体响度。这种能力对于在自然听觉情境中准确建模响度至关重要,在这些情境中,声级、时间和频谱的双耳间差异非常普遍。
更重要的是,Moore-Glasberg框架特有的高级双耳处理在ISO 532-3中得以保留和升级。ISO 532-3描述中明确指出 “具有双耳抑制的时变声音模型”。这一确认意义重大,因为它表明复杂的双耳交互机制(例如抑制)不仅得以保留,而且在为时变声音动态设计的模型中也能发挥作用。ISO 532-3处理“双耳时间模式和频谱不同的声音” 的能力,标志着心理声学建模的重大进步。
适用性和准确性
ISO 532-3中规定的Moore-Glasberg-Schlittenlacher方法“可应用于任何持续时间的信号”,提供了从短时瞬态事件到较长的、持续变化声景的广泛适用性。
为了与针对更简单声音的既定方法保持一致性和向下兼容性,该标准指出:“对于长时程稳态声音,基于本文件中描述的方法得出的长期响度与使用ISO 532-2中描述的方法确定的响度基本一致”。这确保了更新、更全面的模型不会产生与旧的稳态模型不同的结果。
ISO 532-3的一个关键性能优势在于其对某些类型的复杂声音具有更高的准确性。该标准明确指出:“对于具有强烈振幅波动的声音,例如窄带噪声,本文档计算的响度比 ISO 532-2更准确”。此外,还提供了用于解释其对较短声学事件输出的实用指南:“持续时间长达2或3秒的声音的响度可以通过声音存在期间达到的长期响度的最大值很好地预测”。
比较分析:ISO 532-2 与 ISO 532-3
根本区别:声音类型适用性
ISO 532-2:该标准主要设计用于分析稳态声音,其中声学特性(声级、频谱)在观察期内保持稳定。
ISO 532-3:该标准专门为时变声音设计,但明确指出也适用于稳态声音。这种双重能力使ISO 532-3成为一种更通用、适用范围更广的响度评估工具。
基础响度模型和算法方法
ISO 532-2:采用Moore-Glasberg方法,该模型基于心理声学原理分析听觉激励和双耳信号,优化用于预测稳态声音的响度。
ISO 532-3:使用Moore-Glasberg-Schlittenlacher方法。要认识到这并非一个完全独立的模型,而是Moore-Glasberg框架的扩展和改进。它包含了额外的优化来处理时域听觉感知,从而能够预测动态和波动声音的响度。
双耳听觉现象的处理
ISO 532-2:一个显著的特点是它包含了针对稳态声音的双耳抑制。这解释了双耳之间的相互作用,即一只耳朵中的主导声音可以降低另一只耳朵中较弱声音的感知贡献。
ISO 532-3:也包含了双耳抑制,但其模型经过调整以有效地处理时变信号。它能够处理声音的时间模式和频谱内容在双耳之间存在显著差异的情况。这表明在复杂、动态的双耳听觉情境中,采用了一种更稳健、适应性更强的响度建模方法。
输出指标及其解释
ISO 532-2:通常产生一个单一响度值(通常以宋为单位表示)或一个响度级值(通常以方为单位表示),代表所分析的稳态声音的整体感知强度。
ISO 532-3:产生时变输出指标,分为短期响度和长期响度。这些输出提供了响度感知随时间演变的动态数据,允许分析峰值、谷值和信号模式,而不是单个静态值。
特定声音特性的比较准确性
稳态声音:对于长时程稳态声音,使用 ISO 532-3 计算的长期响度与使用 ISO 532-2 确定的响度“基本一致”。这确保了对于更简单、稳态声学条件的一致性和可比性。
波动声音:对于具有强振幅波动或窄带特征的声音,明确指出ISO 532-3提供的响度计算比ISO 532-2更准确。这是一个关键的性能差异因素,特别是对于许多本质上不稳定的真实世界声音。
结论
选择采用哪种标准应该由具体的声学场景和所需的响度信息性质来指导。如果声音本质上是时变的,或者需要详细了解时间响度概况,ISO 532-3对此准确性更高。因此,ISO 532-3可以被视为一种更通用、通常更强大的工具,它包含了ISO 532-2对稳态声音的功能,同时显著扩展到更复杂的动态声音领域,代表了该领域的明显进步。
从ISO 532-2中的模型到ISO 532-3中更精细的模型,这一演变也反映了科学和工程建模中的一个共同轨迹:要更真实地模拟复杂的现实世界现象,通常需要增加模型的复杂性。ISO 532-3算法复杂性的增强,特别是在其处理时变信号和动态双耳数据方面,为提升其在波动声音方面的表现优异,以及扩展不同声学场景的适用性奠定了基础。
声学及相关领域的专业人士应认识到,ISO 532-3:2023代表了ISO 532系列中用于通用和详细响度计算的当前最先进水平。其在处理时变声音、提供更丰富的时间信息以及为某些复杂信号提供更高准确性方面的显著优势,使其成为一个强大且适用广泛的标准。虽然ISO 532-2:2017在更狭窄的纯稳态声音范围内仍然是一个有效且可靠的标准,但ISO 532-3通常为处理真实世界声学环境的多方面性质提供了一种更全面、且通常更准确的方法。选择合适的标准,应始终以对特定声学问题、所研究声信号的特性以及响度评估所需的洞察深度的透彻理解为指导。
来源:海德声科