解决Gensim自带的corpora进行维基百科中文语料数据提取问题
创作时间:
作者:
@小白创作中心
解决Gensim自带的corpora进行维基百科中文语料数据提取问题
引用
CSDN
1.
https://blog.csdn.net/chenghao1012/article/details/139144383
在使用Gensim库处理维基百科中文语料数据时,可能会遇到一些常见的错误和问题。本文将详细介绍这些错误的原因,并提供具体的解决方案,帮助读者顺利地完成语料数据的提取和处理。
错误提示
在尝试使用Gensim自带的corpora进行维基百科中文语料数据提取时,可能会遇到以下错误提示:
NotImplementedError: The lemmatize parameter is no longer supported. If you need to lemmatize, use e.g. <https://github.com/clips/pattern>.
Perform lemmatization as part of your tokenization function and pass it as the tokenizer_func parameter to this initializer.
问题所在
lemmatize 参数:如果你在创建 WikiCorpus 实例时使用了 lemmatize 参数,你需要移除它,因为该参数已不再支持。
dictionary 参数:WikiCorpus 类在 gensim 的最新版本中不接受 dictionary 参数。如果你需要使用自定义词典,你需要在创建 WikiCorpus 对象后,手动处理文本。
get_texts 方法:WikiCorpus 类没有 get_texts 方法。如果你想要获取文本,你需要使用 WikiCorpus 类的 get_texts 静态方法。
解决方法
移除 lemmatize 和 dictionary 参数
使用 WikiCorpus 类的 get_texts 静态方法,用WikiCorpus.get_texts(wiki)替换wiki.get_texts()
其他问题
gensim 库在初始化 WikiCorpus 类时使用了 multiprocessing 来并行处理数据。错误信息表明 gensim 库尝试在主进程的引导阶段结束之前启动新的进程。
要解决这个问题,你可以尝试以下步骤:
- 确保你的Python脚本是作为主模块运行的,而不是作为子模块导入到其他脚本中。
- 如果你的脚本是通过其他Python脚本导入并运行的,确保导入脚本遵循上述模式。
最终运行成功代码
from gensim.corpora import WikiCorpus
import multiprocessing
if __name__ == '__main__':
# 如果你的程序不是被冻结成可执行文件,可以省略下一行
multiprocessing.freeze_support()
space = ""
with open('wiki-zh-article.txt', 'w', encoding="utf8") as f:
wiki = WikiCorpus('zhwiki-latest-pages-articles.xml.bz2') # 移除 lemmatize 和 dictionary 参数
for text in WikiCorpus.get_texts(wiki): # 使用静态方法 get_texts
f.write(space.join(text) + "\n")
print("Finished Saved")
热门推荐
中国十大忠臣排行:包拯狄仁杰探案双侠垫底,抗金名将岳飞排第五
丈夫患抑郁症的困扰与家庭支持的重要性
如何在摄影就业中突出自己在构图方面的优势
芒市不忙,云南这座被遗忘的边境小城,藏着满满的东南亚风情
中土巨蛇耶梦加德:揭秘北欧神话
晚上吃燕麦片可以减肥吗?
电梯房与楼梯房的优势及购房注意事项
报案成功的关键:侵权纠纷敲诈未遂如何迅速采取措施
颈痛的病因及治疗方法 颈椎痛快速缓解方法
符合IRCC要求的学历认证流程及材料清单
浅析:卡拉什尼科夫公司RPL-7机枪 中国新一代小口径弹药何去何从
用蒸笼怎样隔水蒸米饭
FastAPI性能对比:同步vs异步
助学金什么时候发放
正视失控的食欲:从瑜伽的角度看暴食,觉察与自我关爱
孟浩然赴京赶考,遇上大雪,写下一首诗,借雪抒情
高端对话丨曹德旺、王树国:我们要做开拓者
干大红枣的功效与作用
辟谣孕妇吃红枣容易流产,内含4大好处,必看!
阿托品3期失败!谁能胜任近视一线防控?
甘蔗亩产量一般多少斤
IBMS系统集成的功能有哪些
委托代销商品会计分录怎么做
打造贵州历史文化题材大IP 讲好中国故事
为什么越来越多的年轻人不愿意结婚,因为他们活明白了
现代工业化发展背景下的激光切割加工技术
乌尔第三王朝与《乌尔纳姆法典》:人类最早的法典诞生记
混合喷射的优缺点 混合喷射和多点电喷的区别
中医解析面部潮红的五大原因及调理方法
全波桥式整流器原理与应用