如何使用3-gram tokenization对字段进行表计划
时间: 2023-06-27 20:03:30 浏览: 101
d3-gram:D3对语法格式的支持
使用3-gram tokenization对字段进行表计划,可以分为以下几个步骤:
1. 分词:将字段转化为3-gram序列,即将字符串按照每3个字符一组进行切分。例如,字符串"Hello World"可以切分为["Hel", "ell", "llo", "lo ", "o W", " Wo", "Wor", "orl", "rld"]。
2. 统计词频:统计每个3-gram序列在字段中出现的次数。
3. 筛选高频词:根据设定的阈值,筛选出出现频率较高的3-gram序列,作为表计划中的列。
4. 构建表计划:将筛选出的3-gram序列作为列名,每行对应原始字段中的一个3-gram序列出现的次数。
需要注意的是,在进行3-gram分词时,需要考虑到边界情况,即对于原始字符串长度不足3的部分,需要进行特殊处理。另外,在筛选高频词时,阈值的设定需要根据具体数据集进行调整,以保证选出的列能够覆盖大部分信息。
阅读全文