首页后端开发Python基于python的scrapy爬虫

基于python的scrapy爬虫

时间2023-06-04 05:04:01发布访客分类Python浏览491
导读:基于python的scrapy爬虫?对于只是读取某几个网站更新内容的爬虫完全没必要在python代码中实现增量的功能,直接在item中增加Url字段。item['Url'] = response.url然后在数据端把储存url的column...

基于python的scrapy爬虫?

对于只是读取某几个网站更新内容的爬虫完全没必要在python代码中实现增量的功能,直接在item中增加Url字段。

item['Url'] = response.url

然后在数据端把储存url的column设置成unique。

之后在python代码中捕获数据库commit时返回的异常,忽略掉或者转入log中都可以。

我使用的是SqlAlchemy。我是这么写的

from sqlalchemy.exc import IntegrityError

class XxxPipeline(object):

def process_item(self, item, spider):

#一些session.add()

#........

try:

session.commit()

print 'crawl %s done!' % item['Url']

except IntegrityError:

print 'skip %s .' % item['Url']

return item

虽然每次crawl都会重复抓取一些数据,但最终结果库内不会有相同的Url。

对于小规模的爬虫,这种重复抓取的成本基本可以忽略。

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!


若转载请注明出处: 基于python的scrapy爬虫
本文地址: https://pptw.com/jishu/60639.html
python虚拟机还没有问世以前 如何使用python开发教学软件

游客 回复需填写必要信息