针对timit训练集统计Bigram(不需要使用平滑),并使用ARPA语言模型格式将其保存为txt文件的代码
时间: 2024-05-18 19:18:43 浏览: 211
training训练集.txt
好的,下面是针对timit训练集统计Bigram并保存为ARPA语言模型格式的代码:
```bash
# 下载TIMIT数据集
wget https://www.openslr.org/resources/3/data.tgz
tar -xvzf data.tgz
# 安装SRILM工具包
wget http://www.speech.sri.com/projects/srilm/download/srilm-1.7.3.tar.gz
tar -xvzf srilm-1.7.3.tar.gz
cd srilm-1.7.3
make
# 将所有训练文本文件合并为一个文件
cat data/train/*/*/*.txt > data/train.txt
# 统计Bigram并保存为二进制文件
ngram-count -order 2 -text data/train.txt -write data/train.bigram
# 将Bigram转换为ARPA格式并保存为txt文件
ngram-count -order 2 -text data/train.txt -lm data/train.arpa -write data/train.arpa.txt
```
其中,第一行代码下载并解压TIMIT数据集,第二行代码下载并安装SRILM工具包,第三行代码将所有训练文本文件合并为一个文件,第四行代码统计Bigram并保存为二进制文件,最后一行代码将Bigram转换为ARPA格式并保存为txt文件。
阅读全文