永发信息网

用replacepioneer提取html文件中的<p>和</p>之间内容之后的输出问题

答案:1  悬赏:30  手机版
解决时间 2021-12-20 20:47
  • 提问者网友:杀生予夺
  • 2021-12-20 04:57
提取这些段落之后输出是默认到了一个TXT文件中 。
如何让每一对符号之间提取的内容都单独一个TXT输出出来呢 ?
最佳答案
  • 五星知识达人网友:鱼忧
  • 2022-01-10 03:19
可以结合Replace Pioneer的文本分割功能把提取出来的文本自动分割成多个文件,详细步骤:
1. ctrl-o打开待处理html文件
2. ctrl-h打开replace窗口
* search for pattern输入

([^<>]*)

即可
* replace with pattern输入下面两行:
FILENAME:$word_no.txt
$1\n
* 去掉print unmatched unit选项
* 在右下角有一个output file编辑框,在里面添上待输出的目录和基准文件名,比如d:\test\a.txt,并把左边的<改为<< Split by Paragraph
* 选择Settings选项页
Para start选项选择Other,后面输入^FILENAME
Para end选项选择None
3. 以上步骤完整无误后,点击Replace,那么在d:\test目录下就会产生1.txt, 2.txt, 3.txt等等,看看是不是你需要的内容。
我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息
大家都在看
推荐资讯