分析
需求:
爬取西刺代理网免费高匿代理,并保存到MySQL数据库中。
这里只爬取前10页中的数据。
思路:
代码实现
items.py
import scrapyclass XicidailiItem(scrapy.Item): # 国家 country=scrapy.Field() # IP地址 ip=scrapy.Field() # 端口号 port=scrapy.Field() # 服务器地址 address=scrapy.Field() # 是否匿名 anonymous=scrapy.Field() # 类型 type=scrapy.Field() # 速度 speed=scrapy.Field() # 连接时间 connect_time=scrapy.Field() # 存活时间 alive_time=scrapy.Field() # 验证时间 verify_time=scrapy.Field()xicidaili_spider.py
# !/usr/bin/env python# -*- coding:utf-8 -*-import scrapyfrom myscrapy.items import XicidailiItemclass XicidailiSpider(scrapy.Spider): name = 'xicidaili' allowed_domains=['mit() def close_spider(self,spider): self.connection.close()settings.py
ITEM_PIPELINES = { 'myscrapy.pipelines.XicidailiPipeline': 300,}结果
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对的支持。如果你想了解更多相关内容请查看下面相关链接