AST: Audio Spectrogram Transformer

AST: Audio Spectrogram Transformer是一种无卷积、纯基于注意力机制的模型，它于处理音频频谱图，并能够获取长距离的全局上下文。AST模型是从用于图像分类的ViT模型进行迁移学习得到的。AST模型的架构包括谱图分割、线性投影层、Transformer Encoder和线性层等组件。谱图分割后，输入到线性投影层得到patch embedding。为了捕获输入patch的顺序信息，作者在patch embedding中添加了position embedding，并将它们一起输入到Transformer Encoder中。在每个序列的开始部分加上[CLS]，并使用[CLS]对应的最终隐藏状态作为分类任务的序列表示。通过Transformer Encoder后，输出和输入的形状保持一致。最后，通过线性层得到最终的分类结果。

Audio Spectrogram Transformer

好的，我明白了。关于 "Audio Spectrogram Transformer"，我可以告诉你，它是一种基于Transformer架构的音频处理模型，用于将音频信号转换为其对应的频谱图。这种模型通常用于语音识别、音乐分类和声音分割等任务。在这种模型中，输入音频信号首先被转换为其对应的频谱图，然后通过多层Transformer编码器进行处理，最终输出相应的预测结果。这种模型的优点是可以处理变长的音频信号，并且在一些任务上取得了很好的效果。

请问下列代码中window_size step_size和fft_size要如何设置 def get_spectrogram(file_path, window_size=20, step_size=10, fft_size=1024): # 读取 WAV 文件 sample_rate, audio = wav.read(file_path) # 将音频数据转换为单声道 if len(audio.shape) > 1: audio = audio[:, 0] # 计算窗口大小和步长（以采样点为单位） window_size = int(window_size * sample_rate / 1000) step_size = int(step_size * sample_rate / 1000) # 使用短时傅里叶变换计算 spectrogram _, _, spectrogram = signal.spectrogram( audio, fs=sample_rate, window='hann', nperseg=window_size, noverlap=window_size - step_size, nfft=fft_size, mode='magnitude' ) # 对 spectrogram 进行对数变换 spectrogram = np.log1p(spectrogram) return spectrogram

在该代码中，window_size、step_size 和 fft_size 是用于计算 spectrogram 的参数。 - window_size：窗口大小，表示每个窗口中包含的采样点数量。较大的窗口大小可以提供更好的频率分辨率，但会降低时间分辨率。通常，窗口大小应该是 2 的幂次方，以便在进行 FFT 计算时效率更高。根据代码中的默认值，窗口大小为 20 毫秒。您可以根据音频信号的特性和所需的分辨率进行调整。 - step_size：步长，表示每次窗口之间移动的采样点数量。较小的步长可以提供更好的时间分辨率，但会增加计算成本。通常，步长应该小于窗口大小，以确保有重叠的窗口。根据代码中的默认值，步长为 10 毫秒。您可以根据音频信号的特性和所需的时间分辨率进行调整。 - fft_size：FFT 大小，表示进行快速傅里叶变换时使用的点数。较大的 FFT 大小可以提供更好的频率分辨率，但会增加计算成本。与窗口大小类似，FFT 大小也应该是 2 的幂次方。根据代码中的默认值，FFT 大小为 1024。您可以根据音频信号的特性和所需的频率分辨率进行调整。请注意，窗口大小和步长是以毫秒为单位进行设置的，因此它们会根据采样率进行缩放以得到适当的采样点数量。在代码中，使用采样率 `sample_rate` 将毫秒转换为采样点数量。根据您的需求，您可以尝试不同的窗口大小、步长和 FFT 大小，以获得适合您数据特征的 spectrogram。您可能需要进行一些实验和调整，以找到最佳的参数组合。

阅读全文

AST: Audio Spectrogram Transformer

Audio Spectrogram Transformer

相关推荐

Speech-Transformer:PyTorch语音转换器的重新实现

spectroplot-js:IQ Spectrogram Plot JS 库

ast-transform:方便的包装器，用于使用browserify转换流执行AST转换

sifread_ac.m:从 Andor Spectrogram 读取 SIF 文件-matlab开发

audio2spectrogram:将音频文件转换为频谱图

ts_spectrogram:学习TypeScript-使用WebAudio和Canvas API的频谱图可视化

Spectrogram

spectrogram

spectrogram_example.rar_STFT spectrogram_spectrogram_spectrogram

PyPI 官网下载 | spectrogram_to_audio-0.0.3.tar.gz

Python库spectrogram_to_audio-0.0.3发布下载

MATLAB Reading Audio Data from TXT Files: Audio Processing Expert, Easy Access to Audio Data

audio_folder = "recordings/" spectrogram_folder = "spectrograms/" dir_to_spectrogram(audio_folder, spectrogram_folder)

基于STM32单片机的激光雕刻机控制系统设计-含详细步骤和代码

白色简洁风格的前端网站模板下载.zip

HarmonyException如何解决.md

大家在看

RK eMMC Support List

UD18415B_海康威视信息发布终端_快速入门指南_V1.1_20200302.pdf

qt mpi程序设计

考研计算机408历年真题及答案pdf汇总来了 计算机考研 计算机408考研 计算机历年真题+解析09-23年

应用手册 - SoftMove.pdf

最新推荐

基于STM32单片机的激光雕刻机控制系统设计-含详细步骤和代码

WildFly 8.x中Apache Camel结合REST和Swagger的演示

管理建模和仿真的文件

【声子晶体模拟全能指南】：20年经验技术大佬带你从入门到精通

2024-07-27怎么用python转换成农历日期

FDFS客户端Python库1.2.6版本发布

"互动学习：行动中的多样性与论文攻读经历"

传感器集成全攻略：ICM-42688-P运动设备应用详解

matlab 中实现 astar

掌握Dash-Website构建Python数据可视化网站

考研计算机408历年真题及答案pdf汇总来了计算机考研计算机408考研计算机历年真题+解析09-23年