如何去掉分词结果中的停用词

答案:2 悬赏:70 手机版

解决时间 2021-02-21 22:46

提问者网友：沉默的哀伤
2021-02-21 02:49

如何去掉分词结果中的停用词

最佳答案

五星知识达人网友：旧脸谱
2021-02-21 04:16

-*- coding: utf-8 -*-
import jieba
import jieba.analyse
import sys
import codecs
reload(sys)
sys.setdefaultencoding('utf-8')

#使用其他编码读取停用词表
#stoplist = codecs.open('../../file/stopword.txt','r',encoding='utf8').readlines()
#stoplist = set(w.strip() for w in stoplist)
#停用词文件是utf8编码
stoplist = {}.fromkeys([ line.strip() for line in open("../../file/stopword.txt") ])

#经过分词得到的应该是unicode编码，先将其转成utf8编码

全部回答

1楼网友：由着我着迷
2021-02-21 05:28

查找指定目录下的xml文件；读取xml内容并赋值给String变量；把String变量进行分词、过滤等操作；把得到的新String变量写入文件，并保存。上面几个步骤，你似乎只完成了第三步啊。第二和第四步，你应该可以很容易网上找到。第一步，涉及文件过滤，可能用得少，我贴点以前的代码吧，刚好是查找系统配置xml文件的。File[] _files = dir.listFiles( // dir为File类型的目录变量new FilenameFilter() {public boolean accept(File dir,String file){ if (file.toLowerCase().endsWith(".xml")){ return true; }else{ return false; } } } );List files = Arrays.asList(_files);

我要举报

如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息，可以点下面链接进行举报！

点此我要举报以上问答信息