永发信息网

如何去掉分词结果中的停用词

答案:2  悬赏:70  手机版
解决时间 2021-02-21 22:46
  • 提问者网友:沉默的哀伤
  • 2021-02-21 02:49
如何去掉分词结果中的停用词
最佳答案
  • 五星知识达人网友:旧脸谱
  • 2021-02-21 04:16
-*- coding: utf-8 -*-
import jieba
import jieba.analyse
import sys
import codecs
reload(sys)
sys.setdefaultencoding('utf-8')

#使用其他编码读取停用词表
#stoplist = codecs.open('../../file/stopword.txt','r',encoding='utf8').readlines()
#stoplist = set(w.strip() for w in stoplist)
#停用词文件是utf8编码
stoplist = {}.fromkeys([ line.strip() for line in open("../../file/stopword.txt") ])

#经过分词得到的应该是unicode编码,先将其转成utf8编码
全部回答
  • 1楼网友:由着我着迷
  • 2021-02-21 05:28
查找指定目录下的xml文件;读取xml内容并赋值给String变量;把String变量进行分词、过滤等操作;把得到的新String变量写入文件,并保存。上面几个步骤,你似乎只完成了第三步啊。第二和第四步,你应该可以很容易网上找到。第一步,涉及文件过滤,可能用得少,我贴点以前的代码吧,刚好是查找系统配置xml文件的。File[] _files = dir.listFiles( // dir为File类型的目录变量new FilenameFilter() {public boolean accept(File dir,String file){ if (file.toLowerCase().endsWith(".xml")){ return true; }else{ return false; } } } );List files = Arrays.asList(_files);
我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息
大家都在看
推荐资讯