Traceback (most recent call last): File "D:\pythonFiles\图灵\Python_project\self_learn\大语言模型\WikiExtractor.py", line 45, in <module> parse_corpus(infile, outfile) File "D:\pythonFiles\图灵\Python_project\self_learn\大语言模型\WikiExtractor.py", line 21, in parse_corpus wiki = WikiCorpus(infile, lemmatize=False, dictionary={}) # gensim中的维基百科处理类WikiCorpus File "D:\软件\python\lib\site-packages\gensim\corpora\wikicorpus.py", line 619, in __init__ raise NotImplementedError( NotImplementedError: The lemmatize parameter is no longer supported. If you need to lemmatize, use e.g. <https://github.com/clips/pattern>. Perform lemmatization as part of your tokenization function and pass it as the tokenizer_func parameter to this initializer. 怎么解决
时间: 2023-09-04 16:07:40 浏览: 179
这个错误是因为在gensim版本4.0中,不再支持`lemmatize`参数,如果你需要进行词形还原,可以使用例如`pattern`等库来实现。你可以将词形还原作为分词函数的一部分,并将其作为`tokenizer_func`参数传递给`WikiCorpus`的初始化函数。你可以参考gensim的官方文档进行修改代码,或者查看一些gensim的新手教程。
相关问题
(venv) D:\pythonFiles\图灵\Python_project\self_learn\大语言模型>python WikiExtractor.py -i zhwiki-latest-pages-articles.xml.bz2 -o corpus.zhwiki.txt Traceback (most recent call last): File "D:\pythonFiles\图灵\Python_project\self_learn\大语言模型\WikiExtractor.py", line 6, in <module> from pattern.text import lemma ImportError: cannot import name 'lemma' from 'pattern.text' (D:\软件\python\lib\site-packages\pattern\text\__init__.py)
这个错误提示表明在运行 WikiExtractor.py 脚本时,Python 找不到一个名为 `lemma` 的模块或函数,它被期望在 `pattern.text` 模块中被导入。这可能是因为你使用的 `pattern` 库版本过低,或者你没有安装 `pattern` 库。
为了解决这个问题,你可以尝试更新 `pattern` 库到最新版本,或者重新安装 `pattern` 库。你可以使用以下命令来更新 `pattern` 库:
```
pip install --upgrade pattern
```
你也可以使用以下命令来重新安装 `pattern` 库:
```
pip uninstall pattern
pip install pattern
```
如果你已经安装了 `pattern` 库但仍然遇到问题,则需要检查你的 Python 解释器是否正确地配置了 `pattern` 库的路径。希望这个建议可以帮助你解决问题。
Traceback (most recent call last): File "D:\pythonFiles\图灵\Python_project\self_learn\大语言模型\WikiExtractor.py", line 6, in <module> from pattern.text import lemma ImportError: cannot import name 'lemma' from 'pattern.text' (D:\软件\python\lib\site-packages\pattern\text\__init__.py) 怎么解决
这个错误是因为 `pattern` 库的版本问题引起的。`pattern` 库的新版本中已经移除了 `lemma` 函数。你可以降低 `pattern` 库的版本来解决这个问题。
你可以使用 `pip` 命令来安装指定版本的 `pattern` 库,比如安装 2.6 版本:
```
pip install pattern==2.6
```
安装完成后,再次运行你的程序即可。
阅读全文