用python的librosa库和soundfile对一段音频进行短时能量与谱质心特征的端点检测并绘制端点检测和声音短时能量与谱质心的示意图，并通过检测到的端点信息对音频静音区进行辨别并绘图，再将音频进行去除静音操作并绘制去静音前后的端点检测对比图，再将去除静音后的音频保存在本地文件夹。

时间: 2023-06-24 07:05:31 浏览: 237

Acoustic-analysis:通过python进行声音和音乐分析

在声音和音乐分析领域，Python已经成为了一种强大的工具，它提供了丰富的库和框架，使得科学家、工程师以及音乐爱好者能够深入探索音频数据。本项目“Acoustic-analysis”专注于使用Python进行声学和音乐的分析，旨在帮助用户理解并处理音频信号。 Python中的关键库包括librosa、pydub、soundfile、scipy.io.wavfile等，它们提供了各种功能，如读取和写入音频文件、转换采样率、音高检测、节拍同步、频谱分析等。例如，librosa是一个专门用于音乐和音频分析的库，它提供了高级接口来提取各种音乐特征，如梅尔频率倒谱系数（MFCC）、音高、节奏等。在声学分析中，我们通常会遇到以下几个核心概念： 1. **音频信号的读取与写入**：Python中的soundfile和scipy.io.wavfile库可以方便地读取和写入常见的音频格式，如WAV、MP3等。这为后续的分析和处理提供了基础。 2. **信号预处理**：预处理步骤包括噪声去除、信号增益调整、重采样等。Python的wave库和numpy库可以协助进行这些操作。 3. **时频分析**：通过短时傅立叶变换（STFT）或梅尔倒谱系数（MFCC），我们可以将音频信号从时间域转换到频率域，揭示音频的频率成分。matplotlib和seaborn库可用于绘制直观的时频图。 4. **音高和节拍检测**：librosa库提供了yin算法进行音高检测，而madmom库则可以用于节拍检测，这对于音乐分类、情感分析等任务至关重要。 5. **音频特征提取**：除了MFCC，还有其他特征如ZCR（Zero-Crossing Rate）、RMS（Root Mean Square）等，它们可以帮助我们描述音频的特性。 6. **音乐结构分析**：通过谱聚类或自相似矩阵（Spectrogram Self-Similarity Matrix, SSM）可以识别音乐的段落结构，这对于音乐推荐系统或自动剪辑有很大帮助。 7. **机器学习应用**：利用提取的音频特征，我们可以训练机器学习模型进行语音识别、情绪识别、歌曲风格分类等任务。常用的机器学习库有scikit-learn、tensorflow和keras。在“Acoustic-analysis-master”这个项目中，可能包含了一系列示例代码和教程，展示了如何使用Python进行声音和音乐的分析。用户可以通过运行这些代码，了解和学习相关技术，并应用于自己的项目中。 Python为声学分析提供了强大的工具集，使得研究者和开发者能够深入理解音频数据，进行创新性的应用开发。无论是对音乐的科学研究还是娱乐产业的技术支持，Python都在这个领域扮演着不可或缺的角色。通过深入学习和实践，你可以掌握音频处理的技能，打开声音世界的大门。

下面是代码实现： ```python import librosa import soundfile as sf import numpy as np import matplotlib.pyplot as plt # 加载音频文件 audio_file = 'example.wav' y, sr = librosa.load(audio_file, sr=None) # 计算短时能量特征 frame_length = int(0.02 * sr) energy = librosa.feature.rms(y, frame_length=frame_length, hop_length=frame_length, center=True) # 计算谱质心特征 spec_cent = librosa.feature.spectral_centroid(y, sr=sr, n_fft=frame_length, hop_length=frame_length, freq=None) # 绘制短时能量与谱质心特征 plt.figure(figsize=(10, 6)) plt.subplot(2, 1, 1) plt.plot(np.arange(len(y)) / sr, y) plt.plot(np.arange(len(energy[0])) * frame_length / sr, energy[0], color='r') plt.ylabel('Energy') plt.subplot(2, 1, 2) plt.plot(np.arange(len(y)) / sr, y) plt.plot(np.arange(len(spec_cent[0])) * frame_length / sr, spec_cent[0], color='r') plt.ylabel('Spectral Centroid') plt.xlabel('Time (s)') plt.show() # 端点检测 threshold_energy = 0.1 # 短时能量阈值 threshold_spec_cent = 1000 # 谱质心阈值 endpoints = [] is_speech = False for i in range(len(energy[0])): if energy[0][i] > threshold_energy and spec_cent[0][i] > threshold_spec_cent: if not is_speech: endpoints.append(i * frame_length) is_speech = True else: if is_speech: endpoints.append(i * frame_length) is_speech = False if is_speech: endpoints.append(len(y)) # 绘制端点检测结果与静音区域标记 plt.figure(figsize=(10, 6)) plt.plot(np.arange(len(y)) / sr, y) for i in range(0, len(endpoints), 2): plt.axvspan(endpoints[i] / sr, endpoints[i+1] / sr, color='r', alpha=0.2) plt.xlabel('Time (s)') plt.show() # 去除静音 y_new = np.array([]) for i in range(0, len(endpoints), 2): y_new = np.concatenate((y_new, y[endpoints[i]:endpoints[i+1]])) sf.write('example_no_silence.wav', y_new, sr) # 绘制去静音前后的端点检测对比图 plt.figure(figsize=(10, 6)) plt.subplot(2, 1, 1) plt.plot(np.arange(len(y)) / sr, y) for i in range(0, len(endpoints), 2): plt.axvspan(endpoints[i] / sr, endpoints[i+1] / sr, color='r', alpha=0.2) plt.xlabel('Time (s)') plt.title('Before Removing Silence') plt.subplot(2, 1, 2) plt.plot(np.arange(len(y_new)) / sr, y_new) plt.xlabel('Time (s)') plt.title('After Removing Silence') plt.show() ``` 上述代码中，我们首先使用 `librosa.load` 函数加载音频文件，并计算出短时能量和谱质心特征。然后，我们绘制出短时能量和谱质心特征的示意图。接着，我们使用一个简单的算法进行端点检测。具体来说，当短时能量和谱质心同时超过一定阈值时，我们认为这是语音信号，否则就是静音区域。我们将检测到的端点信息保存在 `endpoints` 列表中，并绘制出端点检测结果和静音区域标记的示意图。然后，我们使用 `numpy.concatenate` 函数将去除静音后的音频片段拼接起来，并使用 `soundfile.write` 函数将音频保存在本地文件夹中。最后，我们绘制出去静音前后的端点检测对比图。需要注意的是，上述代码中的阈值和算法只是一个示例，实际应用中需要根据具体情况进行调整和优化。

阅读全文

相关推荐

基于 python 进行音频处理【100011730】

python-soundfile:SoundFile是基于libsndfile，CFFI和NumPy的音频库

Python库 | SoundFile-0.8.1.tar.gz

Python实现语音端点检测，基音周期检测和语音共振峰估计【语音信号处理实战】.zip

人工智能-项目实践-数据预处理-实现对语音进行端点检测，并去除语音中静音段，可以作为语音信号处理的一个预处理

多轨音频同步与混合：SoundFile库与其他音频处理库的对比

Python音频信号处理最佳实践：SoundFile库的综合运用

音频文件读写细节：SoundFile库精确控制音频流的技巧

【音频信号处理黄金教程】：Librosa带你从入门到精通音频分析

音频信号增强实战：SoundFile库与噪声消除技术

音频播放与录制实战：SoundFile库的应用案例

音频处理自动化：SoundFile库批量操作与脚本编写

音频时域频域分析：SoundFile库的案例研究与应用

python谱熵法进行端点检测,并验证

基于短时过零率的语音端点检测代码

python通过librosa读取一段wav语音信号进行普通滤波、维纳滤波、卡尔曼滤波、自适应滤波等滤波方法消除或压制嗓声的代码

python 利用librosa从音频数据提取lpc特征报错：Input contains infinity or value too large for dtype(float32)，如何修改

使用soundfile读取音频文件

除了librosa,python还有什么库可以做频谱音调分析

最新推荐

JavaScript实现的高效pomodoro时钟教程

管理建模和仿真的文件

【WebLogic客户端兼容性提升秘籍】：一站式解决方案与实战案例

使用jupyter读取文件“近5年考试人数.csv”，绘制近5年高考及考研人数发展趋势图，数据如下（单位：万人）。

CMake 3.25.3版本发布：程序员必备构建工具

"互动学习：行动中的多样性与论文攻读经历"

数字信号处理全攻略：掌握15个关键技巧，提升你的处理效率

给定不超过6的正整数A，考虑从A开始的连续4个数字。请输出所有由它们组成的无重复数字的3位数。编写一个C语言程序

直流无刷电机控制技术项目源码集合

关系数据表示学习