python scrapy爬虫代码及填坑 - IT知识教程 - 中企动力

登录注册

做网站
做推广
做电商

服务支持
应用与服务
关于中企

中企商学院

查看更多

核心必备

数字门户内贸营销版

全球营销版通用版

企业域名企业邮箱

行业应用

医院专业版学校专业版

律所专业版数字名片

视觉设计

VR全景视频制作

图片拍摄

网络安全

等保认证 SSL证书

查看更多

核心必备

全球SEO 百度首屏展位

Yandex推广 Google海外推广

解决方案

外贸推广解决方案

查看更多

核心必备

全网商城移动商城

装修服务

电商产品拍摄

解决方案

零售行业OMO解决方案政府采购电商平台解决方案

查看更多

查看更多

查看更多

帮助中心

数字门户产品服务保障服务中心

设计师信息化讲堂

解决方案

外贸数字营销解决方案企业视频直播解决方案

企业安全等保解决方案品牌数字化营销解决方案

品牌零售数字商业解决方案智慧园区解决方案

B2B电商平台建设解决方案数字化政务门户解决方案

开拓型外贸企业解决方案成长型外贸企业解决方案

行业解决方案

实战应用

产品剖析律所行业专家

平台产品导入外贸信息洞察

行业解读

学习中心

电商运营学院网站建设学院

查看更多

应用与服务

VR智能全景个性化场景定制服务

网站安全服务云定制

企业视频直播 Banner设计

产品主图设计图片处理

查看更多

企业概况

关于我们企业文化

发展历程数码庄园

法律隐私

资质荣誉

企业资质所获荣誉

新闻中心

新闻公告媒体报道

社会公益视频中心

行业资讯

联系我们

联系我们全国网点

工作机会

查看更多

查看更多

网站建设 IT知识 IT知识教程 python scrapy爬虫代码及填坑

python scrapy爬虫代码及填坑

2021-05-22 21:24:17

涉及到详情页爬取

目录结构:

kaoshi_bqg.py

import scrapyfrom scrapy.spiders import Rulefrom scrapy.linkextractors import LinkExtractorfrom ..items import BookBQGItemclass KaoshiBqgSpider(scrapy.Spider): name = 'kaoshi_bqg' allowed_domains = ['biquge5200.cc'] start_urls = ['https:// # print(os.path.dirname(os.path.dirname(__file__))) D:/Users/Administrator/PycharmProjects/wh1901 if not os.path.exists(xs_path): # 如果目录不存在 os.mkdir(xs_path) if not os.path.exists(fiction_path): os.mkdir(fiction_path) # 创建目录 chapter = item['chapter'] content = item['content'] file_path = os.path.join(fiction_path, chapter) + '.txt' # 在该目录下面创建 xx .txt 文件 with open(file_path, 'w', encoding='utf-8') as fp: fp.write(content + '\n') print('保存成功')# class XmlyPipeline(object):# def __init__(self):# self.fp = open("xmly.json", 'wb')# # JsonLinesItemExporter 调度器# self.exporter = JsonLinesItemExporter(self.fp, ensure_ascii=False)## def process_item(self, item, spider):# self.exporter.export_item(item)# return item## def close_item(self):# self.fp.close()# print("爬虫结束")

starts.py

from scrapy import cmdlinecmdline.execute("scrapy crawl kaoshi_bqg".split())# cmdline.execute("scrapy crawl xmly".split())

然后是爬取到的数据

小说

xmly.json

记录一下爬取过程中遇到的一点点问题:

在爬取详情页的的时候, 刚开始不知道怎么获取详情页的 url 以及上一个页面拿到的字段

也就是 yield 返回请求详情页里面的参数没有很好地理解
meta：从其他请求传过来的meta属性，可以用来保持多个请求之间的数据连接。
url：这个request对象发送请求的url。
callback：在下载器下载完相应的数据后执行的回调函数。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

声明：本页内容来源网络，仅供用户参考；我单位不保证亦不表示资料全面及准确无误，也不保证亦不表示这些资料为最新信息，如因任何原因，本网内容或者用户因倚赖本网内容造成任何损失或损害，我单位将不会负任何法律责任。如涉及版权问题，请提交至online#300.cn邮箱联系删除。

相关文章

pycharm创建scrapy项目教程及遇到的坑解析

前言最近学习scrapy爬虫框架，在使用pycharm安装scrapy类库及创建scrapy项目时花费了好长的时间，遇到各种坑，根据网上的各种教程，花费了一晚上

浅谈Scrapy网络爬虫框架的工作原理和数据采集

今天小编给大家详细的讲解一下Scrapy爬虫框架，希望对大家的学习有帮助。1、Scrapy爬虫框架Scrapy是一个使用Python编程语言编写的爬虫框架，任何

Python下使用Scrapy爬取网页内容的实例

上周用了一周的时间学习了Python和Scrapy，实现了从0到1完整的网页爬虫实现。研究的时候很痛苦，但是很享受，做技术的嘛。首先，安装Python，坑太多了

图文详解python安装Scrapy框架步骤

python书写爬虫的一个框架，它也提供了多种类型爬虫的基类，scrapy用途广泛，可以用于数据挖掘、监测和自动化测试首先要先安装python安装完成以后，配置

Linux中openssl/opensslv.h找不到问题的解决方法

前言众所周知scrapy是Python中鼎鼎大名的爬虫框架，在安装scrapy过程中碰到了openssl某个文件找不到的问题，并进行了分析，记录之。一、scra

7 x 24

全国售后支持
100 倍

故障时长赔付
26 年

26年行业服务经验
70 家

全国售后支持
1600+ 名

超千人的设计、研发团队
150 万

服务企业客户150万家

Copyright © 1999-2025 中企动力科技股份有限公司（300.cn）版权所有京公网安备11030102010293号京ICP证010249-2

在线咨询

建站在线咨询

获取方案

获取建站报价/方案

我们联系您

微信咨询

扫一扫添加
动力姐姐微信

TOP