首页jieba怎么自定义词典让”2023年9月1日“这种词time_pattern = re.compile(r'\d{4}[年\-]\d{1,2}[月\-]\d{1,2}[日号]?|\d{1,2}[时:]\d{1,2}[分:]?\d{0,2}[秒]?\b|\d{4}[\/\-]\d{1,2}[\/\-]\d{1,2}')能通过模板获取

jieba怎么自定义词典让”2023年9月1日“这种词time_pattern = re.compile(r'\d{4}[年\-]\d{1,2}[月\-]\d{1,2}[日号]?|\d{1,2}[时:]\d{1,2}[分:]?\d{0,2}[秒]?\b|\d{4}[\/\-]\d{1,2}[\/\-]\d{1,2}')能通过模板获取

时间: 2023-07-25 20:28:44 浏览: 88

如果想让`jieba`能够正确地识别出类似`20239月1日`这的时间关键词可以将其加入自定义词典中，并使用自定义的词性进行标注。首先，我们需要时间关键词加入自定义词典中。例如，在自定义词典文件`my_dict.txt`中，可以添加以下内容： ``` 2023年9月1日 time ``` 其中，`time`是我们自定义的词性，用于标注时间关键词。保存后，可以使用`jieba.load_userdict()`方法将自定义词典文件加载进来： ```python import jieba jieba.load_userdict('my_dict.txt') ``` 接下来，在使用`jieba.cut()`方法分词时，可以使用`use_paddle=True`参数启用词性标注功能。这样，分词结果中就会包含词性信息。例如： ```python import jieba jieba.load_userdict('my_dict.txt') text = '我想知道2023年9月1日的天气' words = jieba.cut(text, use_paddle=True) for word, pos in zip(words, jieba.lcut(text, use_paddle=True)): print(word, pos) ``` 输出结果为： ``` 我 r 想 v 知道 v 2023年9月1日 time 的 u 天气 n ``` 可以看到，时间关键词`2023年9月1日`被正确地识别并标注为了自定义的词性`time`。最后，我们可以使用正则表达式提取出所有词性为`time`的词汇，以获取时间关键词。例如： ```python import re import jieba jieba.load_userdict('my_dict.txt') text = '我想知道2023年9月1日的天气' words = jieba.cut(text, use_paddle=True) time_pattern = re.compile(r'time') results = [word for word, pos in zip(words, jieba.lcut(text, use_paddle=True)) if time_pattern.search(pos)] print(results) # ['2023年9月1日'] ``` 这样，我们就可以通过正则表达式获取到所有时间关键词了。

阅读全文

大家在看

天风证券_0305_风险预算与组合优化.pdf

CST画旋转体.pdf

在CST帮助文档中很难找到画旋转体的实例，对于一些要求画旋转体模型的场合有时回感到一筹莫展，例如要对一个要承受压力的椭球封盖的腔体建模用普通的方法就难以胜任。本文将以实例的方式教大家怎么画旋转体，很实用！

FineBI Windows版本安装手册

非常详细一定安装成功

INCA用的A2L文件生成脚本

X-Projects:使用 Redmine 和 Excel 的 CCPM（关键链项目管理）工具

使用 CCPM 的 X 项目使用 Redmine 和 Excel 的 CCPM（关键链项目管理）工具特点特点将在 Excel 中创建的票证信息集中注册/更新到 Redmine 考虑到节假日，从售票负责人和工时计算开始日期和截止日期按任务可能完成的小时数输入进度登记通过每个负责人的进度状态和整体进度过渡图查看进度 CCPM燃尽图、缓冲区管理图显示用法在工单批量创建表中输入编号、标题、费用和计划工时按日期重新计算按钮计算开始日期和截止日期单击 CSV 创建按钮将创建的 CSV 导入 Redmine 开发人员根据还剩多少小时来修复计划的工时检查进度时的CSV导出票并将其粘贴到Excel中按日期重新计算按负责人更新进度和进度图有关详细信息，请参阅和 X-Projects.xls 是一个输入进度率的版本，它不是 v0.3.1 CCPM 要求红米 Redmine 导入器插件

最新推荐

基于倍福EtherCAT的源码开发：主站F4/H7与从站方案，支持通信测试，含硬件电路板与芯片方案,ethercat源码，可适配倍福ethercat，可用总线plc源码开发主站和从站方案，源码

基于倍福EtherCAT的源码开发：主站F4/H7与从站方案，支持通信测试，含硬件电路板与芯片方案,ethercat源码，可适配倍福ethercat，可用总线plc源码开发。主站和从站方案，源码。有，支持到测试通讯上。主站F4方案和H7方案两种，带硬件实物电路板。主站F4，芯片F407。从站，芯片F405、F103。 ,Ethercat源码; 倍福Ethercat适配; PLC源码开发; 主站和从站方案; 测试通讯支持; 主站F4方案/H7方案; 硬件实物电路板; 芯片F407; 从站芯片F405、F103。,"EtherCAT源码：主站F4与H7方案，从站支持多种芯片，适配倍福，支持测试通讯的PLC开发方案"

逻辑无环流可逆直流调速系统MATLAB仿真研究与实现,逻辑无环流可逆直流调速系统matlab仿真 ,核心关键词：逻辑控制; 无环流; 可逆直流调速系统; MATLAB仿真; 调速控制; 线性电机驱

逻辑无环流可逆直流调速系统MATLAB仿真研究与实现,逻辑无环流可逆直流调速系统matlab仿真。 ,核心关键词：逻辑控制; 无环流; 可逆直流调速系统; MATLAB仿真; 调速控制; 线性电机驱动系统; 优化算法; 电气控制工程; 模型构建。,MATLAB仿真无环流可逆直流调速系统逻辑研究

jieba怎么自定义词典让”2023年9月1日“这种词time_pattern = re.compile(r'\d{4}[年\-]\d{1,2}[月\-]\d{1,2}[日号]?|\d{1,2}[时:]\d{1,2}[分:]?\d{0,2}[秒]?\b|\d{4}[\/\-]\d{1,2}[\/\-]\d{1,2}')能通过模板获取

相关推荐

珍藏版jieba分词词典资源大全：多校及情感词典

C#实现jieba分词：自定义词典与多分词形式

Python3 Jieba工具实战：中文分词与自定义词典

请解释下面的代码re_han= re.compile(u"([\u4E00-\u9FD5a-zA-Z0-9+#&\._%]+)") for _,line in enumerate(f): try: line=line.strip() line=line.split('\t') assert len(line)==2 blocks=re_han.split(line[1]) word=[] for blk in blocks: if re_han.match(blk): word.extend(jieba.lcut(blk)) yield word

text_analysis = jieba.analyse.extract_tags(keywordss,topK = 100, withWeight=True) for texts in abstracts: if texts == text_analysis: abstract_analysis = jieba.analyse.extract_tags(abstracts,topK=30,withWeight=True)

基于jieba构建年报分析会计词典及连词库

jieba中文分词组件0.42.1版本安装指南

大家在看

天风证券_0305_风险预算与组合优化.pdf

CST画旋转体.pdf

FineBI Windows版本安装手册

INCA用的A2L文件生成脚本

X-Projects:使用 Redmine 和 Excel 的 CCPM（关键链项目管理）工具

最新推荐

基于倍福EtherCAT的源码开发：主站F4/H7与从站方案，支持通信测试，含硬件电路板与芯片方案,ethercat源码，可适配倍福ethercat，可用总线plc源码开发 主站和从站方案，源码

逻辑无环流可逆直流调速系统MATLAB仿真研究与实现,逻辑无环流可逆直流调速系统matlab仿真 ,核心关键词：逻辑控制; 无环流; 可逆直流调速系统; MATLAB仿真; 调速控制; 线性电机驱

易福门O1D300光电液位传感器操作与配置详解

Fortify代码扫描工具完整用户指南与安装手册

【VS2010-MFC实战秘籍】：串口数据波形显示软件入门及优化全解析

freesurfer完成处理后，如何批量提取每个被试aseg.stats的某个脑区的体积（volume）到一个table中，每个被试的数据是单独的一行

汽车共享使用说明书的开发与应用

BD3201电路维修全攻略：从入门到高级技巧的必备指南

如何在前端使用百度地图同时添加多个标记点？

审计Solidity项目：Turbo 360构建指南

基于倍福EtherCAT的源码开发：主站F4/H7与从站方案，支持通信测试，含硬件电路板与芯片方案,ethercat源码，可适配倍福ethercat，可用总线plc源码开发主站和从站方案，源码