多媒体会议的恒定混音权重实时算法

下载需积分: 9 | PDF格式 | 557KB | 更新于2024-09-13 | 60 浏览量 | 举报

1 收藏

"多媒体会议中新型快速实时混音算法" 在多媒体会议系统中，音频混合（混音）是一项至关重要的技术，它确保了多个参与者之间的声音能够流畅、清晰地融合在一起，进而进行有效的沟通。传统的混音算法在处理多路音频流时可能会出现音量突变的问题，这会严重影响用户体验，甚至造成通话中断或听觉不适。针对这一问题，研究人员提出了“多媒体会议中新型快速实时混音算法”。混音处理的核心在于如何合理地分配各个音频源的权重，使得混合后的声音既不会因为某一路声音过大而掩盖其他声音，也不会因为频繁的变化而导致音量突变。现有的混音算法通常基于动态调整的混音权重，这种动态调整可能会导致音量的不稳定。通过深入分析这些算法，研究者发现混音权重的不断变化是引发音量不一致的主要原因。为了克服这个问题，本文提出了一种名为“非均匀波形收缩”（Asymmetrical Wave-Shrinking, AWS）的混音算法。该算法的关键创新点在于使用了一个与混音输入无关的固定混音权重，这样可以确保在混合过程中，各个音频源的相对比例保持稳定，从而避免音量的突然变化。AWS算法不仅能够提供更为自然流畅的混音效果，而且其计算过程相对简单，不涉及复杂的乘除法运算，有利于硬件实现，这对于需要处理大量音频流的大规模多媒体会议系统来说，具有显著的优势。此外，AWS算法的另一个优点是它的实时性。在多媒体会议中，音频数据需要在极短的时间内进行处理并发送出去，因此，快速的处理能力是必不可少的。AWS算法设计精巧，能够在保证性能的同时，满足实时混音的需求。关键词涵盖的领域包括多媒体会议、音频处理单元、非均匀混音、波形收缩和混音算法。这些关键词反映了该研究的焦点在于改进多媒体会议系统的音频处理能力，特别是针对音量控制和实时性能的优化。这种新型的混音算法为多媒体会议系统提供了一种高效、稳定的解决方案，有助于提升用户体验，并为未来的相关研究和技术开发提供了新的思路。在实际应用中，AWS算法可以广泛应用于各种大规模的在线会议、远程教育、虚拟现实等场景，有助于推动音频处理技术的发展。

第 29 卷第 3 期电子与信息学报 Vol.29No.3

2007 年 3 月 Journal of Electronics & Information Technology Mar. 2007

多媒体会议中新型快速实时混音算法

王文林廖建新朱晓民沈奇威

(北京邮电大学网络与交换技术国家重点实验室北京 100876)

摘要: 混音处理是多媒体会议系统中的一个关键环节, 直接影响用户之间的相互交流。现有常用的混音算法中存

在着音量突变的问题, 通过对这些混音算法的分析, 得出了变化的混音权重是导致音量忽大忽小的主要原因的结

论。在此基础上, 该文提出了一种采用与混音输入无关的恒定混音权重的非均匀波形收缩混音算法, 该算法混音结

果自然流畅, 避免了音量突变的问题。该算法运算简单, 速度快, 没有乘除法操作, 容易硬件实现。可以广泛应用

于大规模的多媒体会议系统中。

关键词: 多媒体会议；音频处理单元；非均匀；波形收缩；混音

中图分类号：TN919.8 文献标识码：A 文章编号：1009-5896(2007)03-0690-06

A Novel Fast Real-Time Audio Mixing Algorithm

in Multimedia Conference

Wang Wen-lin Liao Jian-xin Zhu Xiao-min Shen Qi-wei

(State Key Lab. of Networking and Switching Tech., Beijing Univ. of Posts and Telecomm., Beijing 100876, China)

Abstract: In multimedia conference, audio mixing is an essential component, which affects the communication

between users. At present, the commonly used audio mixing algorithms have a protean volume. By analyzing those

algorithms, the conclusion of mutative mixing weights bring on protean volume is drawn. Base on this, a novel

algorithm named Asymmetrical Wave-Shrinking (AWS) is proposed. A fixed mixing weight independent of inputs

is used to ensure the natural and fluent outputs without protean volume. Without multiplication and division

operations, the algorithm is so simple and fast that it can be easily implemented by hardware and widely applied

in large scale multimedia conference systems.

Key words: Multimedia conference; APU (Audio Process Unit); Asymmetrical; Wave-shrinking; Audio mixing

1 引言

近年来, 多媒体会议成为多媒体通信发展的热点之一。

在多媒体会议中, 音频交流最为频繁, 实时性的要求也远远

高于视频及数据, 是多媒体会议中最基本的要素。为了具有

更好的会议临场感, 与会者希望能同时听到多个发言者的声

音。在分散控制会议模式下, 每个发言者的语音信号都单独

传送给每个与会者, 在终端处进行混音后再播放, 这种方式

需要占用大量的网络带宽, 影响语音信号的QoS(Quality of

Service), 并对终端有较高的要求。为此, ITU-T提出了集中

控制会议模式

[1]

, 在MCU(Multipoint Control Unit)中对来

自各发言者的语音信号进行混音处理, 再将结果传送到每个

与会者, 极大地降低了网络传输的负担和终端的处理能

力

[2]

。

目前各种混音算法都有其难以弥补的缺陷和不足, 很难

2005-08-18 收到, 2006-01-03 改回

国家杰出青年科学基金(60525110), 新世纪优秀人才支持计划

(NCET-04-0111), 高等学校博士学科点专项科研基金

(20030013006), 国家移动通信产品研究开发专项基金和电子信息产

业发展基金资助课题

满足大规模会议的应用。文献[3]中的平均混音算法随着混音

路数的增加音量急剧降低; 文献[4,5]提出的对齐混音算法在

混音过程中会出现明显的音量忽大忽小的变化; 文献[6]提出

的自对齐混音算法则引入了部分噪音, 并且音量偏小; 实际

应用较多的箝位混音算法

[7]

也存在音量突然变化情况。本文

基于H.323 多媒体会议中集中式会议工作模式, 提出一种新

型的快速实时混音算法, 采用与混音输入无关的恒定混音权

重, 杜绝音量变化, 复杂度低, 基本不引入噪音, 且速度快,

极易于软硬件实现。

2 混音处理过程

根据ITU-T的H.323 规范, 在MCU中有MC(Multipoint

Controller)和MP(Multipoint Processor)两大核心模块, 其

中MP提供音频、视频和数据的集中处理能力, 划分为

AMP(Audio MP), VMP(Video MP)和DMP(Data MP) 大

模块。其中的AMP包括了多个APU(Audio Processing Unit),

分别对应一个会议, 各APU之间独立并行工作。APU的结构

如图 1 所示

[6]

。

下载后可阅读完整内容，剩余5页未读，立即下载

lvshaoqing

粉丝: 10
资源: 12

多媒体会议的恒定混音权重实时算法

利用ffmpeg的filter混音

音频简单混音算法测试代码.

音频混音算法

一种新的多媒体会议实时混音方案

多媒体计算机课件（清华版教材）

第5章多媒体通信系统中的关键技术.pptx

浅析计算机技术在广播电视工程中的应用.docx

掌讯3158多媒体功能深度体验：高清音视频处理技术全面分析

【IMS网络SIP协议的多媒体通信特性】：中国电信的案例研究

FFmpeg中的视频剪辑与合成

最新资源