中企动力 > 头条 > python怎么抓取数据

网站性能检测评分

注：本网站页面html检测工具扫描网站中存在的基本问题，仅供参考。

python怎么抓取数据

如何抓取这些网站数据？python源码大全，包括微信，知乎。QQ，豆瓣，天猫京东等公司视频课程

纯爱

WechatSogou[1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口，可以扩展成基于搜狗搜索的爬虫，返回结果是列表，每一项均是公众号具体信息字典。[1]: https://github/Chyroc/WechatSogou

DouBanSpider[2]- 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书，按评分排名依次存储，存储到Excel中，可方便大家筛选搜罗，比如筛选评价人数>1000的高分书籍；可依据不同的主题存储到Excel不同的Sheet ，采用User Agent伪装为浏览器进行爬取，并加入随机延时来更好的模仿浏览器行为，避免爬虫被封。[2]: https://github/lanbing510/DouBanSpider

zhihu_spider[3]- 知乎爬虫。此项目的功能是爬取知乎用户信息以及人际拓扑关系，爬虫框架使用scrapy，数据存储使用mongodb。[3]: https://github/LiuRoy/zhihu_spider

bilibili-user[4]- Bilibili用户爬虫。总数据数：20119918，抓取字段：用户id，昵称，性别，头像，等级，经验值，粉丝数，生日，地址，注册时间，签名，等级与经验值等。抓取之后生成B站用户数据报告。[4]: https://github/airingursb/bilibili-user

SinaSpider[5]- 新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录，可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。[5]: https://github/LiuXingMing/SinaSpider

distribute_crawler[6]- 小说下载分布式爬虫。使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现,爬虫状态显示使用graphite实现，主要针对一个小说站点。[6]: https://github/gnemoug/distribute_crawler

CnkiSpider[7]- 中国知网爬虫。设置检索条件后，执行src/CnkiSpider.py抓取数据，抓取数据存储在/data目录下，每个数据文件的第一行为字段名称。[7]: https://github/yanzhou/CnkiSpider

LianJiaSpider[8]- 链家网爬虫。爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码，包括链家模拟登录代码。[8]: https://github/lanbing510/LianJiaSpider

scrapy_jingdong[9]- 京东爬虫。基于scrapy的京东网站爬虫，保存格式为csv。[9]: https://github/taizilongxu/scrapy_jingdong

QQ-Groups-Spider[10]- QQ 群爬虫。批量抓取 QQ 群信息，包括群名称、群号、群人数、群主、群简介等内容，最终生成 XLS(X) / CSV 结果文件。[10]: https://github/caspartse/QQ-Groups-Spider

wooyun_public[11]-乌云爬虫。乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在mongodb中，大概约2G内容；如果整站爬全部文本和图片作为离线查询，大概需要10G空间、2小时（10M电信带宽）；爬取全部知识库，总共约500M空间。漏洞搜索使用了Flask作为web server，bootstrap作为前端。[11]: https://github/hanc00l/wooyun_public

QunarSpider[12]- 去哪儿网爬虫。网络爬虫之Selenium使用代理登陆：爬取去哪儿网站，使用selenium模拟浏览器登陆，获取翻页操作。代理可以存入一个文件，程序读取并使用。支持多进程抓取。[12]: https://github/lining0806/QunarSpider

findtrip[13]- 机票爬虫（去哪儿和携程网）。Findtrip是一个基于Scrapy的机票爬虫，目前整合了国内两大机票网站（去哪儿 + 携程）。[13]: https://github/fankcoder/findtrip

163spider[14] - 基于requests、MySQLdb、torndb的网易客户端内容爬虫。[14]: https://github/leyle/163spider

doubanspiders[15]- 豆瓣电影、书籍、小组、相册、东西等爬虫集。[15]: https://github/dontcontactme/doubanspiders

QQSpider[16]- QQ空间爬虫，包括日志、说说、个人信息等，一天可抓取 400 万条数据。[16]:https://github/LiuXingMing/QQSpider

baidu-music-spider[17]- 百度mp3全站爬虫，使用redis支持断点续传。[17]: https://github/Shu-Ji/baidu-music-spider

tbcrawler[18]- 淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息，数据存储在mongodb。[18]: https://github/pakoo/tbcrawler

stockholm[19]- 一个股票数据（沪深）爬虫和选股策略测试框架。根据选定的日期范围抓取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到JSON文件、CSV文件。[19]https://github/benitoro/stockholm

400-660-5555 在线客服

展开

Python爬虫入门，快速抓取大规模数据(完结篇) 互联网视频课程

Isoke

关注

前面的几篇文章讲解了爬虫的基本原理，并使用了一些代码来做演示。这是爬虫系列的最后一篇，这篇文章会对前面的内容总结一下，没有新的内容。

Python基本环境的搭建，爬虫的基本原理以及爬虫的原型Python爬虫入门，快速抓取大规模数据

如何使用BeautifulSoup对网页内容进行提取Python爬虫入门，快速抓取大规模数据(第二部分)

爬虫运行时数据的存储数据，以SQLite和MySQL作为示例Python爬虫入门，快速抓取大规模数据（第三部分）

使用selenium webdriver对动态网页进行抓取Python爬虫入门，快速抓取大规模数据（第四部分）

讨论了如何处理网站的反爬虫策略Python爬虫入门，快速抓取大规模数据(第五部分)

对Python的Scrapy爬虫框架做了介绍，并简单的演示了如何在Scrapy下进行开发Python爬虫入门，快速抓取大规模数据(第六部分)

限于篇幅的长度和作为爬虫入门文章，前面每一篇文章都只是对相关的内容作了一个简单的介绍。如果深入下去，每一部分都会有很多的内容，后面有机会在单独讨论。当然，如果对爬虫感兴趣和有工作的需要，可以用这些文章作为入门教程。

400-660-5555 在线客服

展开

Python数据抓取 —简单网络爬虫的撰写企业视频课程

Lao

关注

@数据分析-jacky

全称：Document ObjectModel Tree，它是一组API，可以跟网页的元素进行互动，使用BeautifulSoup就可以把网页变成一个DOM TREE，我们就可以根据DOM TREE的节点进行操作

@数据分析-jacky

上图的举例，最外面结构是html，是最上层的节点，下面一层是body，里面包含h1和a两个链接，这些就组成了DOM TREE的架构，我们就可以根据这个架构下的某些节点进行互动，我们可以取得h1里面的词，也可以取得a里面的词，这时候我们就可以把数据顺利提取出来；

@数据分析-jacky

这里会显示警告信息，警告信息告诉我们这段代码没有使用到我们的剖析器，这时python会预测一个剖析器给我们，如果我们要避免这种警告的产生，我们可以在代码中指明

@数据分析-jacky

如何进一步把上面的文字解开？加上[0],可以去掉中括号，加.text可以把里面的文字取出来

print(header[0].text)

@数据分析-jacky

本文为中国统计网原创文章，需要转载请联系中国统计网（），转载时请注明作者及出处，并保留本文链接。

400-660-5555 在线客服

展开

Python爬虫：抓取手机APP的数据互联网视频课程

Peel

关注

摘要

大多数APP里面返回的是json格式数据，或者一堆加密过的数据。这里以超级课程表APP为例，抓取超级课程表里用户发的话题。

400-660-5555 在线客服

展开

Python抓取app数据（摩拜单车）互联网视频课程

余无极

关注

前几天有人问我，可以帮我抓取摩拜单车的数据嘛？

我想着帮他抓取下次他还是不会，古话说的好：授人以鱼不如授人以渔，所以本次我们就讲讲如何抓取app的内容吧。

Fiddle的安装及配置

抓手机包我用的是fiddle。

安装

先在下载页面下载-→https://telerik/download/fiddler

选择你“准备用fiddle来干嘛”

你的邮箱

以及同意“最终用户许可协议”就可以下载了

下载后按照提示安装就可以了。

配置

源码群 5952 66089

开始抓包

首先确保电脑和手机连在同一个WiFi下面

打开fiddle

获取电脑ip

打开cmd命令行

输入ipconfig,如图所示，192.168.31.146就是我的ip地址

打开手机WiFi设置，找到你当前链接的WiFi

我当前链接的是Xiaomi_E172_5G

设置代理服务器为你电脑的ip，端口号为上面设置的端口号（默认为8888）

安装https证书

在手机浏览器上打开你电脑ip:你设置的端口号

我的是192.168.31.146:8888

点击框框处安装证书

设置fiddle监听所有请求

选择all process

打开摩拜单车app

然后你会看到定位的时候一辆车也没有。。。

打开个人详情页还提示“抱歉，服务暂不可用。

这是因为摩拜有防抓取限制（我猜是检测，如果有使用代理的话，直接让你用不了。。。）

那这样的话我们就没办法抓到么？？？

因为我之前还用过摩拜的小程序，所以我们抓抓微信小程序试试看

打开摩拜单车的小程序

我们看到已经定位了。。，并且把附件的单车都显示出来了

我们可以多移动我们的位置，然后等有把附近的车显示出来

可以看到fiddle上面已经有好多请求了

mobike-api。。。这很明显就是我们要找的请求

请求头如下图所示，方法是post

返回值因为我看到是json的格式了，所以直接以json的格式看。

源码群 59 5266089

可以看到我们已经抓取了需要的数据，那么怎么抓取整个上海的摩拜单车情况呢？？

只要获取上海的所有经纬度，然后替换上面data中的经度及纬度就可以了。。。

那么怎么获取上海的所有经纬度。。。这方面没怎么接触。。

看完我相信大家应该多试几次就好了。比较实用的技巧奉上。

400-660-5555 在线客服

展开

Python数据抓取 —简单网络爬虫的撰写企业视频课程

断肠崖

关注

@数据分析-jacky

如何进一步把上面的文字解开？加上[0],可以去掉中括号，加.text可以把里面的文字取出来

print(header[0].text)

@数据分析-jacky

本文为中国统计网原创文章，需要转载请联系中国统计网（），转载时请注明作者及出处，并保留本文链接。

400-660-5555 在线客服

展开

Python抓取app数据（摩拜单车）企业视频课程

平复

关注

前几天有人问我，可以帮我抓取摩拜单车的数据嘛？

我想着帮他抓取下次他还是不会，古话说的好：授人以鱼不如授人以渔，所以本次我们就讲讲如何抓取app的内容吧。

Fiddle的安装及配置

抓手机包我用的是fiddle。

安装

先在下载页面下载-→https://telerik/download/fiddler

选择你“准备用fiddle来干嘛”

你的邮箱

以及同意“最终用户许可协议”就可以下载了

下载后按照提示安装就可以了。

配置

源码群 5952 66089

开始抓包

首先确保电脑和手机连在同一个WiFi下面

打开fiddle

获取电脑ip

打开cmd命令行

输入ipconfig,如图所示，192.168.31.146就是我的ip地址

打开手机WiFi设置，找到你当前链接的WiFi

我当前链接的是Xiaomi_E172_5G

设置代理服务器为你电脑的ip，端口号为上面设置的端口号（默认为8888）

安装https证书

在手机浏览器上打开你电脑ip:你设置的端口号

我的是192.168.31.146:8888

点击框框处安装证书

设置fiddle监听所有请求

选择all process

打开摩拜单车app

然后你会看到定位的时候一辆车也没有。。。

打开个人详情页还提示“抱歉，服务暂不可用。

这是因为摩拜有防抓取限制（我猜是检测，如果有使用代理的话，直接让你用不了。。。）

那这样的话我们就没办法抓到么？？？

因为我之前还用过摩拜的小程序，所以我们抓抓微信小程序试试看

打开摩拜单车的小程序

我们看到已经定位了。。，并且把附件的单车都显示出来了

我们可以多移动我们的位置，然后等有把附近的车显示出来

可以看到fiddle上面已经有好多请求了

mobike-api。。。这很明显就是我们要找的请求

请求头如下图所示，方法是post

返回值因为我看到是json的格式了，所以直接以json的格式看。

源码群 59 5266089

可以看到我们已经抓取了需要的数据，那么怎么抓取整个上海的摩拜单车情况呢？？

只要获取上海的所有经纬度，然后替换上面data中的经度及纬度就可以了。。。

那么怎么获取上海的所有经纬度。。。这方面没怎么接触。。

看完我相信大家应该多试几次就好了。比较实用的技巧奉上。

400-660-5555 在线客服

展开

python怎么抓取数据

如何抓取这些网站数据？python源码大全，包括微信，知乎。QQ，豆瓣，天猫京东等 公司视频课程

Python爬虫入门，快速抓取大规模数据(完结篇) 互联网视频课程

Python数据抓取 —简单网络爬虫的撰写 企业视频课程

Python爬虫：抓取手机APP的数据 互联网视频课程

Python抓取app数据（摩拜单车） 互联网视频课程

Python数据抓取 —简单网络爬虫的撰写 企业视频课程

Python抓取app数据（摩拜单车） 企业视频课程

如何抓取这些网站数据？python源码大全，包括微信，知乎。QQ，豆瓣，天猫京东等公司视频课程

Python数据抓取 —简单网络爬虫的撰写企业视频课程

Python爬虫：抓取手机APP的数据互联网视频课程

Python抓取app数据（摩拜单车）互联网视频课程

Python数据抓取 —简单网络爬虫的撰写企业视频课程

Python抓取app数据（摩拜单车）企业视频课程