声源定位技术及其应用

2023-12-07 1154阅读

声源定位技术是指利用多个麦克风测量环境中不同位置的声音信号。声源点相对于麦克风的到达方向和距离。说到声源定位,我们很容易想到人耳定位。由于与直达声波相位不同,两者在耳道处干涉,产生特殊的听觉效果。这种效应称为耳廓效应。结合头部旋转因素,即可达到声源定位的目的。具体的声音根据 ITD 和 ILD 进行定位。我国古代声源定位的应用可以追溯到战国时期的墨家。随着机器学习、云计算和片上电子技术的发展,声源定位技术将拥有更广阔的应用前景。

什么是声源定位(SSL)技术? 声源定位技术是指利用多个麦克风测量环境中不同位置的声音信号。 由于声音信号到达每个麦克风的时间都有不同程度的延迟,因此采用算法对测量到的声音信号进行处理,从而得到声音信号。 声源点相对于麦克风的到达方向(包括方位角、俯仰角)和距离。

说到声源定位,我们很容易想到人耳定位。 一只耳朵和双耳都具有定位能力。 在单耳定位中,耳廓的各个部分会在进入耳道之前反射入射的声波。 由于与直达声波相位不同,两者在耳道处干涉,产生特殊的听觉效果。 这种效应称为耳廓效应。 结合头部旋转因素,即可达到声源定位的目的。 在双耳定位中,我们通过左右耳接收到的信号会有时间差(Interaural Time Difference,ITD)和声级差(Interaural Level Difference,ILD)。 具体的声音根据 ITD 和 ILD 进行定位。 电平方位角的确定可以在数学上表达为二维声音方向估计问题,如下图1所示。 ITD信息在中低频位置估计有较好的效果,而ILD信息在高频位置估计有较好的效果。 再加上耳廓效应、头部旋转、优先效应等,我们将对角度、距离等信息有更进一步、更准确的理解。

算法原址_定位算法开发_声源定位算法gcc

图1 人体头部二维声源定位模型,图片来自文献[2]

一、简介

我国古代声源定位的应用可以追溯到战国时期的墨家。 《墨子》一书中记载了两种战听法:“土听”和“瓷听”。 《备穴》篇中说:“令陶者制罂粟,盛四十余斗,以薄皮固之,置于井中,请有耳者俯伏罂粟听之。探查穴位位置后,挖洞迎之。”大意是派人将瓦丘放入井中,在坛口静静聆听地下传来的声音,准确地摸清敌人地道的位置,从而抵御敌人挖地道攻城的方法。

第一次世界大战期间,科学家发明了许多声学防御装置。 这一时期最复杂的声音定位设备之一是佩兰遥测仪(Télésitemètre Perrin),它以法国物理学家让·巴蒂斯特·佩兰(Jean Baptiste Perrin)的名字命名,如下图2所示。 佩兰设计了一种用于跟踪飞机噪声(如发动机声音、螺旋桨声音、摩擦振动声音、排气声音)的接收装置,该装置将数十个小扬声器聚集在一个六角形蜂窝巢中。 “扬声器”通过一组电子管连接到中央扬声器。 两台监听器通过额外长度的管子进行双耳聆听。 他们通过手中的方向盘转动设备,以接收指定方向的声音。 如果设备面向声源方向,则接收器拾取的声音同时到达,两个麦克风听到的声音相互加强。

定位算法开发_算法原址_声源定位算法gcc

图 2 Perrin 遥测仪早期模型的图片,来源不明

尽管如今已经有了更复杂的定位技术,但相位增强原理仍然是现代声源定位系统的基础。 为了改进需要机械旋转设备来搜索相位增强方向的方法,使用信号处理算法来重建旋转对固定位置麦克风测量的声音的影响,从而避免阵列的物理移动。

声源定位可用于船舶和车辆的检测、机器(如发动机、汽车、飞机)中主要噪声源的定位、通信设备或语音识别处理中的目标选择和干扰抑制以及机械系统的状态监测。 此外,由于能够估计声源强度和声场信息,声源定位方法已广泛应用于音频设备和影院系统的声学设计、振动的非接触测量以及虚拟现实音频系统等领域。用户。 随着机器学习、云计算和片上电子技术的发展,声源定位技术将拥有更广阔的应用前景。

2、声源定位技术

声源定位技术主要由以下两部分组成:

接下来,我们将描述声源定位的端到端模型、方法和评价指标。

算法原址_声源定位算法gcc_定位算法开发

图3 声源定位通常采用球坐标系,坐标信息包括距离、方位角、俯仰角。 图片来自文献[3]

1. 端到端模型

声源定位的端到端模型如图4所示。从采集的声音信号中提取特征,然后使用声音定位方法获得输出。 这种映射方法很大程度上依赖于声学传播模型。

传播模型。 用于声源定位的更常见的声学传播模型是自由场模型和远场模型。 在自由场中,声音仅通过直接路径到达麦克风,这也意味着声源和麦克风之间没有障碍物,并且不存在声音反射(无室内混响),例如在空旷的室外或消声环境室。 。 在远场中,麦克风之间的距离与声源到麦克风阵列的距离之间的关系使得声波可以被认为是平面波。

定位算法开发_算法原址_声源定位算法gcc

图4 声源定位的端到端模型,图片来自文献[4]

特征。 在所使用的声学定位方法中,使用了以下声学特征:到达时间差(TDOA)、麦克风间强度差(IID)、频谱陷波、MUSIC伪频谱(Pseudo-spectrum)和波束成形引导响应(波束成形转向响应)等。

测绘程序。 声源定位中的映射方法是指将阵列信号中的特征映射到其位置信息。 具体技术方法将在下一节中介绍。

2. 实现方法

(1) 到达方向估计

基于相对延迟估计的方法。 由于阵列的几何结构,每个阵列接收到的信号都有不同程度的延迟。 基于相对延迟估计的方法通过互相关、广义互相关(GCC)或相位差来估计每个信号。 阵列信号之间的时延差结合阵列的几何结构来估计声源的方位信息。

基于波束形成的方法。 该算法通常采用阵列各阵元的所有角度补偿相位来实现对目标区域的扫描,然后对各信号进行加权求和,将波束输出功率最大的方向作为目标声源的方向。 常见的基于波束成形的声源方位角估计算法包括延迟求和(DS)算法、最小方差无失真响应(MVDR)算法、可控响应功率相变法(Steered Response Power-Phase Transform,SRP-PHAT)等。

声源定位技术及其应用

基于信号子空间的方法。 这类算法一般可以分为相干子空间方法和非相干子空间方法。 在非相干子空间算法中,最经典的算法是多信号分类(MUSIC)算法。 其思想是将信号的相干性结合到方差中进行特征提取,利用特征向量构造信号子空间和噪声子空间,然后利用噪声子空间构造高分辨率的空间谱。 由于声源信号是宽带信号,因此可以利用傅里叶变换将声源信号分解为多个窄带信号,然后利用MUSIC算法对各个窄带信号进行定位,并对各个窄带估计的结果进行加权合并,得到获得宽带方位角估计。 相干子空间方法将窄带信号收敛到某个参考频率,从而利用窄带子空间处理方法进行方位角估计。

基于模态域的方法。 上述方法都是阵元域的处理方法,而模态域的一大特点是波束和导向矢量与频率无关。 基于此,可以设计具有低频方向性的波束形成器,也可以降低阵元域波束。 要扫描的频率点的数量。 与阵元域相比,模态域处理方法在波束形成时多了一步模态展开操作。 模态展开可以通过傅里叶变换来实现。 每个展开模式都有对应的空间特征光束。 对应于特定的光束响应,可以被视为组合成所需光束响应的一组基础。 从理论上讲,只要模态展开的阶数足够高,理论就可以组合并逼近形成任意梁。 模态域方法目前应用于球形阵列和环形阵列,取得了较好的效果。

基于机器学习(或深度学习)的方法。 与传统的基于模型的方法相比,基于机器学习的方法是数据驱动的,甚至不需要定义传播模型。 基于机器学习的方法将声源定位视为多分类或线性回归问题,利用其极强的非线性拟合能力将多通道数据特征直接映射为定位结果。 基于机器学习的方法主要发展为两个方向,即基于网格的方法和无网格的方法。 两种方法在定位精度和估计声源数量方面各有优势。

(2)距离估计

与DOA估计相比,声源距离估计的研究起步较晚。 获得DOA估计结果后,声源位于麦克风和捕获信号之间的双曲线内。 如果使用多个麦克风阵列来估计源信号的DOA,则可以使用每个麦克风阵列的双曲线的交点来估计DOA。 找到声源。 但这种方法并不适合远距离测距,许多研究也集中在室内短距离声源测距。

在室内条件下,当距声源的距离发生变化时,可以假设反射声(如房间混响扩散声场)的能量保持不变,而直达声的能量则发生变化。 这两种能量的比率称为直接与混响比率(DRR),它与声源距离的估计密切相关。 理论上,信号的 DRR 可以直接根据到达麦克风的声源的房间脉冲响应函数(Room Impulse Responses,RIR)计算出来。 然而,声源距离的估计受到许多因素的影响(例如未知的RIR、近场和远场模型不匹配、由于距离变化而导致的混响能量变化等)。 这些方法还不成熟,不能很好地应用。 。

三、评价指标

对于DOA估计和距离估计方法来说,需要依靠一些指标来衡量声源定位的性能。 常见的评价指标如下:

平均误差。 它测量估计值的误差,通常将估计值与真实值进行比较,表示这些值之间的平均差异。 具体实现方法包括绝对误差、均方误差、均方根误差和最大误差。

准确性。 该指标通常用于 DOA 估计。 我们假设如果估计值在真实值的一定误差范围内,则认为估计是正确的,否则认为是错误的。 它衡量检测正确的比例。

准确率、召回率和 F1 分数。 这些指标在机器学习分类任务中比较常见。 对于估计声源的位置,如果估计正确,则称为真阳性;否则,称为真阳性。 如果估计错误,则称为假阴性。 假设该位置没有声源,如果估计结果也为否,则称为真负例; 如果估计结果是有声源,则称为假正例。 召回率衡量的是正确检测到的声源位置数量占所有声源的比例; 准确率衡量估计的声源位置正确的比例。 一般来说,精确率和召回率是负相关的,F1分数是这两个指标的调和平均值,提供了它们之间的平衡。

来源数量。 该指标衡量的是可以估计的声源数量,无论声源的具体位置如何。

还有一些其他的性能指标,比如使用某种声源定位方法来进行语音识别、声源分离、语音拾取任务的预处理。 上述任务依赖于声源定位的效果,并通过这些任务的表现来间接评估。 声源定位性能。

3、应用前景

1. 故障排除

机械系统(如风力发电机、车辆的各种机械子系统)的在线状态监测和故障诊断是声源定位的重要应用场景。 可靠的在线诊断系统需要来自持续工作的机器上每个潜在故障组件的“干净”数据。 通常很难将传感器直接应用于每个部件,因此可以使用麦克风在距机械部件一定距离处获取声学数据,然后使用声源定位技术作为虚拟传感工具来测量振动声学信息。 此外,声学测量通常比光学测量等替代方法更具成本效益。 例如,在自动驾驶汽车领域,人们希望提高各种机械系统的故障诊断性能,以保证驾驶的安全性和舒适性。

下图是用于声源定位的典型麦克风阵列。 该阵列由36个麦克风组成,用于识别柴油机噪声源的位置。

定位算法开发_声源定位算法gcc_算法原址

图5 史通阳提供照片

2. 远场拾音

在复杂的声学环境中,噪声、混响和非目标语音的干扰会显着影响拾取目标语音信号的质量和清晰度,从而影响后续的语音识别性能。 作为远场语音拾音的前端处理——声源定位,增强或保留目标源方向的信号,抑制其他方向的信号,并跟踪说话人并进行后续的语音定向拾音。 声源定位用于指导各种阵列算法,使其更适合当前环境。 其性能的好坏可以直接影响后续算法(如声源分离、噪声抑制等)在实际声学环境中的鲁棒性。

4.现有方法面临的挑战

1、实时性和准确性要求

实时性能和准确性是许多技术应用中的常见问题。 很多时候我们需要在实时性能和准确性之间进行权衡。 随着人们对声源定位的实时性和准确性的要求不断提高,其性能也在不断改进,而改进方法也取决于使用场景、测试条件限制等。目前很多研究方法都可以提供高精度结果,但由于搜索三维空间(方位角、俯仰角和距离),时间复杂度太大,无法保证实时性要求,这意味着我们无法保证结果的准确性。 声源目标实时提供高精度(角度误差、距离误差以厘米为单位)三维坐标。

2. 平稳信号的假设

大多数声学定位方法在平稳性假设下运行,这意味着声场特性不会随时间变化。 这种假设阻止了定位技术应用于瞬态声源(例如爆炸)或移动声源。 当考虑移动声源(例如高速火车)的定位时,已知运动时的可视化比运动未知时要容易得多。 当给定声源轨迹时,有以下选项:

(1)消除固定阵测量信号的多普勒效应;

声源定位技术及其应用

(2)在全息技术或波束形成模型中添加运动声源的声场表达式;

(3) 如果阵列和信号源具有相同的运动,则虚拟构造阵列测量的信号。

然而,在没有额外运动捕捉工具的情况下定位未知运动的声源仍然是一个悬而未决的问题,几乎没有实际的解决方案。

3. 硬件限制

为了保证良好的定位性能,许多方法甚至需要数百个麦克风,而硬件成本限制了这些技术的应用。 此外,麦克风阵列的安装和布线会造成不可忽视的声学散射,降低麦克风的测量精度,从而损害声源定位的性能。 任何物体,即使是放置在声场中的相对较小的麦克风,都会扰乱正在测量的声场,这会对声场可视化的准确性产生不利影响。 由于将麦克风固定到位的支撑结构和连接布线系统的电缆的存在,这个问题变得更加严重。

目前,MEMS麦克风得到广泛应用。 这些麦克风体积小,功率适中,无需外部电源,并且可以最大限度地减少散射效应。 如果数据采集系统是无线的,则完全不需要电缆。 这些都是有效的措施,但更好的方法仍在开发中 - 完全消除麦克风测量并用完全非侵入性的测量程序取代它们。

5. 未来展望

在过去的几十年里,声源定位领域取得了巨大的发展,许多问题也得到了解决。 例如,半个世纪前,研究人员认为,在噪声和混响条件下,声源定位的鲁棒性很差,这个问题几乎不可能解决。 然而,现在许多声源定位方法基于噪声和混响条件下的研究性能也得到了改进。

目前的方法也存在上一节提到的局限性,并且在声源定位中,仅依靠音频信号来估计距离的研究方法效果较差,但当今的趋势表明这些研究问题正在不断得到解决。

参考

[1] 刘扬帆,J.斯图尔特·博尔顿,帕特里夏·戴维斯。 关键词: 声源定位, 技术, 应用桥梁,2021,51(2):34-40。

[2] 潘正,张明,吴健,等。 关键词: 尖峰神经网络, 耳间时间差, 多音相位编码, 声源定位 IEEE/ACM 音频、语音和语言处理汇刊,2021 年,29:2656 – 2670。

[3] Risoud M、Hanson JN、Gauvrit F 等人。 声源定位[J]. 欧洲耳鼻喉科、头颈疾病年鉴,2018, 135(4): 259-264。

[4] Rascon C, Meza I. 机器人声源定位:综述[J]. 机器人与自主系统,2017,96:184-210。

[5]王子腾. 结合深度学习的麦克风阵列远场拾音算法研究[D]. 北京:中国科学院声学研究所,2019。

[6]张国昌. 鲁棒声源定位方法研究[D]. 北京:中国科学院声学研究所,2019。

[7] 丁建策. 室内有监督双耳声源定位研究[D]. 北京:中国科学院声学研究所,2019。

[8] 何万玲,刘凤英。 人耳判断声源方位的方法[J]. 生物学通报,1991(03):13-14。

[9]冯建辉,王明红,朱家庆。 中国古代声学思想及其应用[J]. 高等函授教育学报(自然科学版),1996(04):12-15。

[10]

[11] Lee SY, Chang J, Lee S. 基于深度学习的高分辨率、高精度多声源定位方法[J]. 机械系统与信号处理,2021,161:107959。

[12]周志华. 机器学习[M]. 清华大学出版社,2016:28-32。

关于我们

21dB声学人是隶属于中国科学院声学研究所苏州电声产业化基地的科技媒体。 它专注于新的声学技术、音频测试和分析、声学市场研究以及声学学习社区的建设。

合作推广

稿件提交| 项目推广| 创业支持

请将您的请求发送至以下电子邮件地址,我们将派专人与您联系

本篇文章要跟大家分享的金蝶财务软件知识是金蝶K/3财务软件云,用于深度构建B2B应用。 需要学习金蝶K/3财务软件云、深入构建B2B应用相关知识并使用金蝶软件的人员。 会计朋友可以详细阅读这篇文章。

金蝶K/3财务软件 cloud,深度构建B2B应用图示

在对B2B的普遍理解中,普遍认为B端市场主要强调服务。 因此,对于当今的企业来说,B2B是手段变革带来的服务提升。 还有其他的可能性吗? 但我想说的是,无论你如何定义它,它都只会按照你想象的方式发展。

例如,企业级服务定义为手段改进,在B2B部署中,客户享受到订单执行效率和准确性的提升,可以轻松找到自己需要的产品并了解订单状态; 更深入的应用下,一些行业先进企业已将企业级市场的“对账服务”放到了平台上,方便经销商了解财务顾虑。 这些都是基于企业级客户服务的提升,能够达到更好的期望。 影响。 但这些基于订单假设的B2B服务可能并不是B2B的全部。

因为,在营销升级转型的过程中,我们的价值不应该仅限于此。 营销的本质首先是“关系”,其次是关系的管理。 因此,上述服务定义存在致命的逻辑假设。 企业与经销商生态“全”且先进; 而两者之间应该只是买卖关系。 很难回答这些假设。 这些都是企业所追求的营销的核心。 营销体系是否通过上述假设得以巩固,能够支撑良好的业绩预期并应对不确定的市场,如果不能,我们需要以更全球化的视角来思考B2B的选择。

四大协同引领B2B建设

对于企业级市场的B2B应用,功能一般涉及四种协作:订单协作、发货协作、对账协作、信息协作。 但我想说的是,不解决企业实际问题的四大协同的选择和构建,根本就是企业的呻吟。 这个问题不在于软件公​​司,而在于企业建设的“初衷”。 公司可以获得的价值取决于它选择解决什么问题。

这些通常在成熟的软件应用程序中提供许多价值点可供选择。 例如:计划订购提高订购效率、综合促销等提高效率; 发货协同可以更精准地引导发货节奏,满足大订单多次发货的情况,从而畅通公司营销供应链; 与对账合作除正常资金外,还将涉及促销、返利、费用等综合资金,以维持利息体系的可靠性; 信息系统是制造商和经销商之间信息交流的窗口。

但无论如何处理,上述应用都必须有强大的ERP处理能力,比如订单处理流程、对账流程等。 同时需要强调的是,不同的ERP在处理能力方面也会存在制约,从而影响最终的价值交付。 例如,由于客户规模和重要性的差异,在订单层面必然存在优先级,但能否在ERP中进行匹配,保证对优质客户的服务保障和高优先级订单的有限履行? 再比如,在企业对账的背景下,经销商报销各种费用的场景有很多。 能否提供费用报销申请并引导进入对账(具体可参考返利部分关于客户资金管理的讨论)。 同时,如何快速审核这些费用报销申请? 为了保证服务性能,此时共享服务平台就显得非常重要。 再比如,客户能否在B2B端快速完成个性化配置,同时根据客户的配置进入ERP指导生产和跟踪,就需要生产环节对配置BOM和配置BOM的标准化进行约束和支撑。配置本身。 此时,ERP可能还需要内置PLM应用程序。

此外,企业问题也需要综合考虑。 例如,食品企业采取的大合同预售制度,普遍限制了未来一段时间的支持政策。 经销商需要提前付款。 这个时候就会有订单协同、出货协同、账户协同、信息协同,都需要深度协同,支撑食品企业的深度需求。

总之,对于B2B建设,我们需要解决相应的问题,更重要的是我们需要量化ERP的需求,否则会导致瓶颈效应的出现。 这就是为什么旧酒装新瓶,传统ERP厂商做不了B2B,外部B2B厂商也很难深度应用。 这就是为什么营销B2B应用可以在K/3云平台上深度构建。

金蝶K/3财务软件 cloud,深度构建B2B应用图示

声源定位技术及其应用

图1-1:B2B门户主页

金蝶K/3财务软件 cloud,深度构建B2B应用图示

图1-2:B2B商务中心首页

金蝶K/3财务软件 cloud,深度构建B2B应用图示

图1-3:订单集中处理

金蝶K/3财务软件 cloud,深度构建B2B应用图示

金蝶K/3财务软件 cloud,深度构建B2B应用图示

金蝶K/3财务软件 cloud,深度构建B2B应用图示

金蝶K/3财务软件 cloud,深度构建B2B应用图示

图 1-4:移动应用程序

金蝶K/3财务软件 cloud,深度构建B2B应用图示

图 1-5:调节

声源定位技术及其应用

金蝶K/3财务软件 cloud,深度构建B2B应用图示

图1-6:共享服务

【案件】

祖先姓名 | 华东地区最大的豆制品公司,利用移动应用满足近2000个农贸市场销售点的需求。 对于豆制品的需求,对于后端供应链和制造具有积极的引导意义。 阳原| 植物蛋白饮料的绝对王者,不仅解决了订单的线上发货和跟踪,还解决了经销商对资金的担忧,以明确的资金巩固预售,用预售提振供应链和生产。 康宝莱| 家用电器有很多型号。 传统方式中,失误会引起财务、仓储、物流等方面的连锁反应。 B2B标准化可以解决此类问题。

价值链重构引领B2B再次升级

营销体系本身就是一个价值链。 营销体系本身的效率,需要企业以超然的视角重新审视各自在体系内的定位和关系,是否可以优化,是否需要引入新的生态参与者等等,在构建时应该考虑在B2B领域。

金蝶K/3财务软件 cloud,深度构建B2B应用图示

图2-1:需求规划

金蝶K/3财务软件 cloud,深度构建B2B应用图示

图2-2:渠道库存管理

【案件】

十三香通过收集经销商的销售和库存数据来“导航”营销策略调整和执行绩效。 拓牌通过金融服务,改变了传统配送网点配送商品采取的免费策略,降低了整体配送成本和回款周期。

以上知识就是我今天要分享的金蝶K/3财务软件云的全部内容,以及B2B应用的深入搭建。 如果您在学习了金蝶K/3财务软件云以及深入构建B2B应用后仍有疑问,可以加入金蝶bjufida Interact的财务软件交流群。

VPS购买请点击我

文章版权声明:除非注明,否则均为主机测评原创文章,转载或复制请以超链接形式并注明出处。

目录[+]