哈工大中文bert 预训练模型怎么下载
时间: 2023-10-16 09:10:51 浏览: 79
您可以通过以下步骤下载哈工大中文BERT预训练模型:
1. 打开哈工大LTP的GitHub页面:https://github.com/HIT-SCIR/ltp
2. 在右侧的"Clone or download"按钮下,点击"Download ZIP",将模型文件的压缩包下载到本地。
3. 解压下载的ZIP文件,找到其中的"ltp_data_v3.4.0.zip"文件,这个文件包含了哈工大中文BERT模型。
4. 解压"ltp_data_v3.4.0.zip"文件,你将会看到一个名为"ltp_data_v3.4.0"的文件夹。
5. 在"ltp_data_v3.4.0"文件夹中,找到名为"bert"的子文件夹,里面包含了哈工大中文BERT预训练模型的相关文件。
请注意,哈工大中文BERT预训练模型是在哈工大LTP项目中提供的,并非官方发布的BERT模型。如果您想使用官方发布的BERT模型,请参考官方文档或官方代码库中的相关说明。
相关问题
有哪些按词来分词的中文gpt模型可用作为预训练模型
目前比较流行的中文GPT模型,按词来分词,可以用作预训练模型的有以下几个:
1. 中文BERT-wwm
2. 中文BERT-wwm-ext
3. RoBERTa-wwm-ext
4. ERNIE 2.0
5. GPT2-Chinese
这些模型都是基于 Transformer架构的,具有较强的语言建模能力和预测能力。其中,中文BERT-wwm和中文BERT-wwm-ext是由哈工大讯飞联合实验室发布的预训练模型,RoBERTa-wwm-ext是由微软发布的预训练模型,ERNIE 2.0是由百度发布的预训练模型,GPT2-Chinese是由OpenAI发布的预训练模型。这些模型均可用于中文自然语言处理任务,包括分词、命名实体识别、文本分类等。
适用于政策新闻文本的预训练好的中文分词模型
目前,市面上有许多适用于中文分词的预训练模型,其中一些也适用于政策新闻文本。以下是一些值得尝试的模型:
1. 哈工大社会计算与信息检索研究中心发布的Lattice-LSTM模型,该模型在中文分词任务上表现优秀,适用于政策新闻文本。
2. THULAC(THU Lexical Analyzer for Chinese)是由清华大学自然语言处理与社会人文计算实验室开发的中文分词工具,采用了一种基于字表的分词方法,适用于政策新闻文本。
3. BERT分词器是一种基于深度学习的预训练模型,可用于中文分词任务。可以使用开源的BERT模型来进行训练,或者使用已经训练好的BERT模型进行分词。
4. Jieba分词器是一种基于规则和统计的中文分词工具,具有分词速度快、准确率高等优点。虽然该模型没有进行预训练,但可以使用训练好的模型来进行分词。
需要注意的是,不同的分词模型适用于不同类型的文本,因此在选择适合自己的分词模型时,应该结合具体的文本特点进行选择。