基于python的scrapy爬虫

时间2023-06-04 05:04:01发布访客分类Python浏览499

导读：基于python的scrapy爬虫？对于只是读取某几个网站更新内容的爬虫完全没必要在python代码中实现增量的功能，直接在item中增加Url字段。item['Url'] = response.url然后在数据端把储存url的column...

基于python的scrapy爬虫？

对于只是读取某几个网站更新内容的爬虫完全没必要在python代码中实现增量的功能，直接在item中增加Url字段。

item['Url'] = response.url

然后在数据端把储存url的column设置成unique。

之后在python代码中捕获数据库commit时返回的异常，忽略掉或者转入log中都可以。

我使用的是SqlAlchemy。我是这么写的

from sqlalchemy.exc import IntegrityError

class XxxPipeline(object):

def process_item(self, item, spider):

#一些session.add()

#........

try:

session.commit()

print 'crawl %s done!' % item['Url']

except IntegrityError:

print 'skip %s .' % item['Url']

return item

虽然每次crawl都会重复抓取一些数据，但最终结果库内不会有相同的Url。

对于小规模的爬虫，这种重复抓取的成本基本可以忽略。

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！