歌声合成入门：工具与理论详解

版权申诉

92 浏览量更新于2024-07-08 收藏 1.26MB PDF 举报

本教程是针对歌声合成初学者设计的一门基础课程，主要探讨了歌声合成领域的核心概念和技术工具。首先，我们明确了几个关键术语： 1. **歌声合成工具**：教程列举了几种流行的歌声合成工具，如Kaldi、PyKaldi、PyTorch-Kaldi和ESPNET。尽管这些工具各有特点，Kaldi以其高效性和性能著名，但其复杂性可能导致学习曲线陡峭；PyKaldi和PyTorch-Kaldi提供了Python接口，提高了灵活性，但依然保留了Kaldi的底层结构；ESPNET则专注于语音识别，功能相对有限。 2. **音高理论**：音高是声音的基本属性，由基频（基音）决定，它是声音振动频率的体现。基频是声音分解为谐波（泛音）的基础，频率最低的波即为基音，其余频率较高的波称为泛音，能量分布随频率增加而递减。人类感知音高是通过基频的对数比例进行的，例如A440Hz被视为标准音高。 3. **音色和音频合成**：音色是声音的独特特征，由不同频率成分的总能量分布决定。音色的变化是由不同振动模式导致的。音频合成涉及更广泛的音频处理，如节拍跟踪（如Madmom和pyAudioAnalysis）和音频特征提取（如librosa），这些工具用于分析和生成音频信号。 4. **音频基础知识**：声音的四大要素包括音高、强弱、长短和音色。音高决定了声音的高低，强弱影响声音的响度，长短则关乎音符的持续时间。MIDI标准将音高转化为数字形式，方便计算机处理。 5. **技术实现**：提到的macOS软件SPEK.cc可能是一个实用的音频分析工具。此外，音高与弦振动长度的关联是理解声音物理原理的一个重要方面，频率越高，弦的长度越短。本教程为想要入门歌声合成的学员提供了一个全面且系统的知识框架，涵盖了从工具选择到音频理论和实践应用的方方面面，旨在帮助学习者建立起扎实的基础，并了解如何有效地利用各种工具和技术来创造和处理合成歌声。

再看下图：下图反映了上图的某个时间点（上图中的黄线）的频率分布。横坐标

为频率，纵坐标为振幅。这个图更有利于直观的观察泛音的成分和强弱。

所以⼀个⼈唱了个C5，那他的基频就⼤概是500，第⼀泛音是1000,第⼆泛音是1500，画

到声谱图上的结果就是从下到上每隔500画⼀个点，根据振幅有颜⾊的区别。随着时间

的推移，声谱图会不断向右延伸，这样我们就得到了⼀段时间内频率分布图。比如⼀

个C5的线在声谱图上⽔平延续了5秒，那表示该歌⼿唱了C5五秒。声谱图上类似“波”的

东西是颤音，也就是歌⼿演唱中不断改变音⾼，所以自然会不断改变纵坐标。

图上的⽔平线含义：⽔平线表示⼀个歌⼿在某个音⾼上持续了⼀段时间。越

亮的线表示振幅越⼤，听感上当然就音量⼤了。直线就是⼀个长直音，考察

长直音主要看稳定度，整个线越直则这个长音越稳定。如果⼤抖就是破音，

如果小抖就是不稳。如果歪了，那就是音准没把握好。

波浪线就是颤音。波浪越⼤则颤音越⼤。看颤音也是看稳定度，如果颤的不稳就

是⽓息出现问题，控制不好。

剩余20页未读，继续阅读

懂安全的算法工程师

粉丝: 2754
资源: 5456

歌声合成入门：工具与理论详解

乐理基础知识完全教程(简捷版)参考.pdf

儿童乐理：音乐素养入门-儿童乐理基础知识入门书籍下载后可任意编辑.docx

基础乐理李重光pdf

帮我写一个用到pyhton tkinter且关于乐理的的项目

吉他入门标准教程pdf

educoder数字音频-儿童配乐

music doa csdn

python演奏音乐

python电子琴北邮专业实验

conductor conductor-community

最新资源