复制代码 代码如下:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector
from cnbeta.items import CnbetaItem
class CBSpider(CrawlSpider):
name = 'cnbeta'
allowed_domains = ['cnbeta.com']
start_urls = ['https://mit()
return conn
这里我暂时不解释,先继续,让这个蜘蛛跑起来再说。
第四步:修改setting.py这个文件:将下面这句话加进去
复制代码 代码如下:
ITEM_PIPELINES=['fjsen.pipelines.FjsenPipeline']
接着,跑起来吧,执行:
复制代码 代码如下:
scrapy crawl fjsen
就会在目前下生成一个data.sqlite的数据库文件,所有抓取到的数据都会存在这里。