Python下使用Scrapy爬取网页内容的实例 - IT知识教程 - 中企动力

登录注册

做网站
做推广
做电商

服务支持
应用与服务
关于中企

中企商学院

查看更多

核心必备

数字门户内贸营销版

全球营销版行业解决方案版

通用版企业域名

企业邮箱

行业应用

外贸客户洞察平台产品导入

数字名片

视觉设计

VR全景视频制作

图片拍摄

网络安全

等保认证 SSL证书

查看更多

核心必备

全球SEO 百度首屏展位

Yandex推广 Google海外推广

解决方案

外贸推广解决方案

查看更多

核心必备

全网商城移动商城

装修服务

电商产品拍摄

解决方案

零售行业OMO解决方案政府采购电商平台解决方案

查看更多

查看更多

查看更多

帮助中心

数字门户产品服务保障服务中心

设计师信息化讲堂

解决方案

外贸数字营销解决方案企业视频直播解决方案

企业安全等保解决方案品牌数字化营销解决方案

品牌零售数字商业解决方案智慧园区解决方案

B2B电商平台建设解决方案数字化政务门户解决方案

开拓型外贸企业解决方案成长型外贸企业解决方案

行业解决方案

实战应用

产品剖析律所行业专家

行业解读

学习中心

电商运营学院网站建设学院

查看更多

应用与服务

VR智能全景个性化场景定制服务

网站安全服务云定制

企业视频直播 Banner设计

产品主图设计图片处理

查看更多

企业概况

关于我们企业文化

发展历程数码庄园

法律隐私

资质荣誉

企业资质所获荣誉

新闻中心

新闻公告媒体报道

社会公益视频中心

行业资讯

联系我们

联系我们工作机会

查看更多

查看更多

网站建设 IT知识 IT知识教程 Python下使用Scrapy爬取网页内容的实例

Python下使用Scrapy爬取网页内容的实例

2021-05-22 21:24:17

上周用了一周的时间学习了Python和Scrapy，实现了从0到1完整的网页爬虫实现。研究的时候很痛苦，但是很享受，做技术的嘛。

首先，安装Python，坑太多了，一个个爬。由于我是windows环境，没钱买mac, 在安装的时候遇到各种各样的问题，确实各种各样的依赖。

安装教程不再赘述。如果在安装的过程中遇到 ERROR：需要windows c/c++问题，一般是由于缺少windows开发编译环境，晚上大多数教程是安装一个VisualStudio，太不靠谱了，事实上只要安装一个WindowsSDK就可以了。

下面贴上我的爬虫代码：

爬虫主程序：

# -*- coding: utf-8 -*-import scrapyfrom scrapy.http import Requestfrom zjf.FsmzItems import FsmzItemfrom scrapy.selector import Selector# 圈圈：情感生活class MySpider(scrapy.Spider): #爬虫名 name = "MySpider" #设定域名 allowed_domains = ["nvsheng.com"] #爬取地址 start_urls = [] #flag x = 0 #爬取方法 def parse(self, response): item = FsmzItem() sel = Selector(response) item['title'] = sel.xpath('//h1/text()').extract() item['text'] = sel.xpath('//*[@class="content"]/p/text()').extract() item['imags'] = sel.xpath('//div[@id="content"]/p/a/img/@src|//div[@id="content"]/p/img/@src').extract() if MySpider.x == 0: page_list = MySpider.getUrl(self,response) for page_single in page_list: yield Request(page_single) MySpider.x += 1 yield item #init: 动态传入参数 #命令行传参写法： scrapy crawl MySpider -a start_url="http://some_url" def __init__(self,*args,**kwargs): super(MySpider,self).__init__(*args,**kwargs) self.start_urls = [kwargs.get('start_url')] def getUrl(self, response): url_list = [] select = Selector(response) page_list_tmp = select.xpath('//div[@class="viewnewpages"]/a[not(@class="next")]/@href').extract() for page_tmp in page_list_tmp: if page_tmp not in url_list: url_list.append("http://下的内容了

以上这篇Python下使用Scrapy爬取网页内容的实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

声明：本页内容来源网络，仅供用户参考；我单位不保证亦不表示资料全面及准确无误，也不保证亦不表示这些资料为最新信息，如因任何原因，本网内容或者用户因倚赖本网内容造成任何损失或损害，我单位将不会负任何法律责任。如涉及版权问题，请提交至online#300.cn邮箱联系删除。

相关文章

Python利用Scrapy框架爬取豆瓣电影示例

本文实例讲述了Python利用Scrapy框架爬取豆瓣电影。分享给大家供大家参考，具体如下：1、概念Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应

Scrapy爬虫实例讲解_校花网

学习爬虫有一段时间了，今天使用Scrapy框架将校花网的图片爬取到本地。Scrapy爬虫框架相对于使用requests库进行网页的爬取，拥有更高的性能。Scra

scrapy spider的几种爬取方式实例代码

本节课介绍了scrapy的爬虫框架，重点说了scrapy组件spider。spider的几种爬取方式：爬取1页内容按照给定列表拼出链接爬取多页找到‘下一页'标签

scrapy爬虫:scrapy.FormRequest中formdata参数详解

1.背景在网页爬取的时候，有时候会使用scrapy.FormRequest向目标网站提交数据（表单提交）。参照scrapy官方文档的标准写法是：#header信

python爬虫框架scrapy实战之爬取京东商城进阶篇

前言之前的一篇文章已经讲过怎样获取链接，怎样获得参数了，详情请看python爬取京东商城普通篇，本文将详细介绍利用python爬虫框架scrapy如何爬取京东商

Copyright © 1999-2026 中企动力科技股份有限公司（300.cn）All Rights Reserved

京公网安备11030102010293号京ICP证010249-2

代理域名注册服务机构：中网瑞吉思（天津）科技有限公司北京新网数码信息技术有限公司

域名注册服务机构许可证编号：京D3-20220007

中企动力域名投诉处理：400-660-5555-9 service4006@300.cn

中国互联网络信息中心（受理范围：“.CN”和“.中国”域名）投诉处理 010-58813000 service@cnnic.cn

7 x 24

全国售后支持
100 倍

故障时长赔付
26 年

26年行业服务经验
70 家

全国售后支持
1600+ 名

超千人的设计、研发团队
150 万

服务企业客户150万家

Copyright © 1999-2026 中企动力科技股份有限公司（300.cn）版权所有京公网安备11030102010293号京ICP证010249-2

在线咨询

建站在线咨询

获取方案

获取建站报价/方案

我们联系您

微信咨询

扫一扫添加
动力姐姐微信

TOP