5
跳过并继续读取下一行,若大于 5 字符,则判定为词,此时通过规定
的正则表达式剔除出非汉字字符并在非字符出处分段,此后,对得到
的字符串进行滑动窗口式的挨个存取,单字和双字都进行存储,若该
字不存在,则新建该词并置数量为 1,若存在,则数量加 1,存储完
毕后,分别写入文件 sword.txt(表示单字)和 dword.txt(表示双
字)
首先,我对新闻语料库 news.txt 进行读取,读取到的汉字直接
存入 Text,读取到的非汉字字符以 EB 的形式存入 Text,并将 Text 开
头置 B,结尾置 EE,以使得读取的双字形式符合 N-gram 文法的定义。
最后,对得到的 Text 进行滑动窗口式的挨个存取,单字和双字
都进行存储,若该字不存在,则新建该词并置数量为 1,若存在,则