解决Gensim自带的corpora进行维基百科中文语料数据提取问题
创作时间:
作者:
@小白创作中心
解决Gensim自带的corpora进行维基百科中文语料数据提取问题
引用
CSDN
1.
https://blog.csdn.net/chenghao1012/article/details/139144383
在使用Gensim库处理维基百科中文语料数据时,可能会遇到一些常见的错误和问题。本文将详细介绍这些错误的原因,并提供具体的解决方案,帮助读者顺利地完成语料数据的提取和处理。
错误提示
在尝试使用Gensim自带的corpora进行维基百科中文语料数据提取时,可能会遇到以下错误提示:
NotImplementedError: The lemmatize parameter is no longer supported. If you need to lemmatize, use e.g. <https://github.com/clips/pattern>.
Perform lemmatization as part of your tokenization function and pass it as the tokenizer_func parameter to this initializer.
问题所在
lemmatize 参数:如果你在创建 WikiCorpus 实例时使用了 lemmatize 参数,你需要移除它,因为该参数已不再支持。
dictionary 参数:WikiCorpus 类在 gensim 的最新版本中不接受 dictionary 参数。如果你需要使用自定义词典,你需要在创建 WikiCorpus 对象后,手动处理文本。
get_texts 方法:WikiCorpus 类没有 get_texts 方法。如果你想要获取文本,你需要使用 WikiCorpus 类的 get_texts 静态方法。
解决方法
移除 lemmatize 和 dictionary 参数
使用 WikiCorpus 类的 get_texts 静态方法,用WikiCorpus.get_texts(wiki)替换wiki.get_texts()
其他问题
gensim 库在初始化 WikiCorpus 类时使用了 multiprocessing 来并行处理数据。错误信息表明 gensim 库尝试在主进程的引导阶段结束之前启动新的进程。
要解决这个问题,你可以尝试以下步骤:
- 确保你的Python脚本是作为主模块运行的,而不是作为子模块导入到其他脚本中。
- 如果你的脚本是通过其他Python脚本导入并运行的,确保导入脚本遵循上述模式。
最终运行成功代码
from gensim.corpora import WikiCorpus
import multiprocessing
if __name__ == '__main__':
# 如果你的程序不是被冻结成可执行文件,可以省略下一行
multiprocessing.freeze_support()
space = ""
with open('wiki-zh-article.txt', 'w', encoding="utf8") as f:
wiki = WikiCorpus('zhwiki-latest-pages-articles.xml.bz2') # 移除 lemmatize 和 dictionary 参数
for text in WikiCorpus.get_texts(wiki): # 使用静态方法 get_texts
f.write(space.join(text) + "\n")
print("Finished Saved")
热门推荐
黄石火山:地球火药桶的末日预言
揭秘黄石超级火山:地球的心跳
最新研究:黄石火山活动重心向东北转移,440立方千米岩浆库引发关注
专家解读:三七粉对糖尿病的治疗效果
武夷山热门景点推荐:九曲溪、一线天等五大必游景点
重温《人世间》:才明白没出息的秉昆,或许才是周家最成功的孩子
4种桂林美食亮相联合国教科文组织总部!“美食大使”讲述背后的故事
炒蚕豆直接下锅?难怪不好吃,多做一步,软糯鲜香,不发黑更入味
食品工业的发酵艺术——发酵罐的应用
手机扬声器防尘小妙招,你get了吗?
掌握科学的手机扬声器清洁小妙招
粉丝为XX打call,却引发网络争议
武大樱花节:春天最浪漫的约会
武大与西交大:顶尖高校的历史传承与文化特色
秋冬打卡武大:那些不可错过的美景
武汉大学全球排名197位!这所百年名校凭何跻身中国高校前十?
【父母必读】如何鼓励孩子自己写作业
提升孩子作业效率:从时间管理到学习环境的全方位指南
自由光车型如何正确启动?这种启动方法有哪些注意事项?
自由光汽车自动启停功能使用指南:温度、电池等关键条件解析
助增饲草供应 苜蓿玉米间作高效生产技术获推广
沙漠温室种水稻!中国科学家这样做到“不可能完成的任务”
AI爆发,为人类探索未知之境按下加速键
《人世间》你根本不知蔡晓光的真面目,他才是隐藏最深的男人
《暗杀行动一代》游戏机制大揭秘!
《暗杀行动一代》通关秘籍大揭秘
广播电视学专业:导播助理进阶指南
三七的生长环境及生长地方条件(探究三七生长的地理条件和自然环境特点)
分手13年,王阳现状令人惊艳:47岁帅气,娶小4岁妻女儿超可爱!
无创血糖监测技术迎来突破:从实验室到临床应用