关于爬虫爬不到数据

答案:2 悬赏:30 手机版

解决时间 2021-04-09 04:51

提问者网友：不爱我么
2021-04-08 14:51

请大家帮我看下为什么这个代码爬不到数据啊？
# -*- coding: utf-8 -*-

import time
import re
import json

from start.loan import Loan
from scrapy.spider import Spider
from scrapy.selector import Selector

from start.items import LoanItem

class hepaiSpider(Spider):
name = "hepai"
allowed_domains = ["he-pai.cn"]
start_urls = [
"http://www.he-pai.cn/investmentDetail/investmentDetails/index.do"
]

def parse(self, response):
sel = Selector(response)
items = []
loan =Loan()
sites = sel.xpath("//div[@class='tabs_con']")
for site in sites:
item = LoanItem()
item['company_name'] = '合拍在线'
item['title'] = site.xpath("/table[@class='tzlb']/a/text()").extract()
item['rate'] = site.xpath("//table/tbody/tr/td[2]/text()").extract()
item['amount'] = site.xpath("//table/tboday/td[3]/text()").extract()
item['public_time'] = site.xpath("//table/tbody/td[4]/text()").extract()
item['process'] = site.xpath("//table/tbody/td[5]/div/div[1]/@style").extract()
item['period'] = site.xpath("//table/tbody/td[6]/text()").extract()
items.append(item)
return items;
---------------------------------------分割线-------------------------------------------------------------

crawl以后是这样子
6 14:00:30+0800 [hepai] DEBUG: Scraped from <200 http://www.he-pai.cn/investmentDetail/investmentDetails/index.do>
{'amount': [],
'company_name': '\xe5\x90\x88\xe6\x8b\x8d\xe5\x9c\xa8\xe7\xba\xbf',
'period': [],
'process': [],
'public_time': [],
'rate': [],
'title': []}

最佳答案

五星知识达人网友：蕴藏春秋
2021-04-08 15:56

你这个site.xpath("/table[@class='tzlb']/a/text()").extract()是不是写错了啊

全部回答

1楼网友：酒安江南
2021-04-08 16:14

被引擎k过的网站，爬虫是不会去爬的，因为已经进了黑名单还有一个就是还没被蜘蛛发现未被收录的网站，也是爬不到的

我要举报

如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息，可以点下面链接进行举报！

点此我要举报以上问答信息