中企动力 > 头条 > python用什么知乎

网站性能检测评分

注:本网站页面html检测工具扫描网站中存在的基本问题,仅供参考。

python用什么知乎

为什么美国知乎Quora选择Python作为它的开发环境 流量视频课程

img

Hull

关注

自从Facebook的创始人Adam D'Angelo开始效力于这个大量使用了PHP的网站,我就一直在想他要用Python而不是PHP来创造Quora所遇到的技术挑战。

Adam D'Angelo,Quora创始人:

我们非常确定我们不会用PHP。Facebook因为历史遗留原因而使用PHP,并不是因为它是最好的选择。

从以往的经验看来,编程语言的选择是非常重要的,并且会付出非常昂贵的代价来改变它。

Python是一个Charlie和我都非常了解的语言(尽管我现在比刚开始的时候了解的更多了)。我们也简单地考虑过C#、Java和Scala,Python最大的问题是运行速度和缺少数据类型检查。

C#似乎是很有前途,作为一个编程语言,它很伟大,但是:

我们不想在微软架构上,我们是为了学习新东西的,MS SQL 确实是非常不错的,但是我们知道我们需要为.NET集成很多有二等支持的开源代码,如果它支持的话。并且,现在大部分的工程师都习惯开源资源。我们不会在Mono(C#/.NET的一个开源代码的实现)上冒险。还不清楚这个项目会用多长时间,并且我还听说了不少已经表现出来的问题。总之,似乎一切在C#生态系统中的东西都表现出我们会在微软架构下。

‘另外两个我们简要考虑了的语言还有OCaml和Haskkell(没有一个有足够大的生态系统或足够好的标准库,可能对于需要写代码的设计师/数据分析师/非工程师来说太难了)。

我们决定,对于大多数我们要做的事情来说,Python已经足够快了(因为我们尽可能的把我们的后端服务的关键代码用C++来写)。至于类型检查,我们写了完善的单元测试,它值得写,并且实现了大部分相同的目标。从它过去的5年发展来看,Python会继续向着好的方向发展。

所以,我们对于这个选择感到非常开心。虽然其中有一些小的分歧,但是之前使用其他语言的早期的员工非常高兴的过渡到了Python,特别是之前使用PHP的。自从下面这些事情开始发生:

Python2.6是一个转折点,它有了足够多的库进行兼容,我们很容易过渡到它Tornado(web框架)被发布为开源,我们把实时更新网络服务迁移到它上面PyPy看起来最终是可用的,并且会给我们一个显著的加速

总之,这些给了我们信心,让我们相信这个语言和生态系统正向着好的方向发展。

Charlie Cheever,Quora的一个创建者

给Adam的答案补充几件事情:

Python有一堆相当好的提供了良好的调试器和重载的框架(Django,Pylons和其他一些),这些大部分都被很好的支持并且也变得越来越好。由于我们的主要工作是建设网站,这是很有吸引力的。Python数据机构很好的匹配JS数据结构,所以处理浏览器和服务器之间的数据非常直接和简单。这真是太好了,因为Quora中涉及到大量的客户端和服务端之间的不加载页面的交互。Python代码往往可读性很强,因为我们希望能在网站上和一帮人工作,这变得非常重要。有很多其他的Python写的库,所以很容易在我们的代码中引入一些东西,比如:自定义邮件服务器、任务队列,等等。

Ruby是另一个我认为比较合理的选择,因为它和Python有很多相同的优点,但是Adam和我都对Python了解的更多一点。

如何抓取这些网站数据?python源码大全,包括微信,知乎。QQ,豆瓣,天猫京东等 流量视频课程

img

基尔夫港

关注

WechatSogou[1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。[1]: https://github/Chyroc/WechatSogou

DouBanSpider[2]- 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet ,采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封。[2]: https://github/lanbing510/DouBanSpider

zhihu_spider[3]- 知乎爬虫。此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongodb。[3]: https://github/LiuRoy/zhihu_spider

bilibili-user[4]- Bilibili用户爬虫。总数据数:20119918,抓取字段:用户id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。抓取之后生成B站用户数据报告。[4]: https://github/airingursb/bilibili-user

SinaSpider[5]- 新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。[5]: https://github/LiuXingMing/SinaSpider

distribute_crawler[6]- 小说下载分布式爬虫。使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现,爬虫状态显示使用graphite实现,主要针对一个小说站点。[6]: https://github/gnemoug/distribute_crawler

CnkiSpider[7]- 中国知网爬虫。设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。[7]: https://github/yanzhou/CnkiSpider

LianJiaSpider[8]- 链家网爬虫。爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。[8]: https://github/lanbing510/LianJiaSpider

scrapy_jingdong[9]- 京东爬虫。基于scrapy的京东网站爬虫,保存格式为csv。[9]: https://github/taizilongxu/scrapy_jingdong

QQ-Groups-Spider[10]- QQ 群爬虫。批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。[10]: https://github/caspartse/QQ-Groups-Spider

wooyun_public[11]-乌云爬虫。 乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在mongodb中,大概约2G内容;如果整站爬全部文本和图片作为离线查询,大概需要10G空间、2小时(10M电信带宽);爬取全部知识库,总共约500M空间。漏洞搜索使用了Flask作为web server,bootstrap作为前端。[11]: https://github/hanc00l/wooyun_public

QunarSpider[12]- 去哪儿网爬虫。 网络爬虫之Selenium使用代理登陆:爬取去哪儿网站,使用selenium模拟浏览器登陆,获取翻页操作。代理可以存入一个文件,程序读取并使用。支持多进程抓取。[12]: https://github/lining0806/QunarSpider

findtrip[13]- 机票爬虫(去哪儿和携程网)。Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)。[13]: https://github/fankcoder/findtrip

163spider[14] - 基于requests、MySQLdb、torndb的网易客户端内容爬虫。[14]: https://github/leyle/163spider

doubanspiders[15]- 豆瓣电影、书籍、小组、相册、东西等爬虫集。[15]: https://github/dontcontactme/doubanspiders

QQSpider[16]- QQ空间爬虫,包括日志、说说、个人信息等,一天可抓取 400 万条数据。[16]:https://github/LiuXingMing/QQSpider

baidu-music-spider[17]- 百度mp3全站爬虫,使用redis支持断点续传。[17]: https://github/Shu-Ji/baidu-music-spider

tbcrawler[18]- 淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息,数据存储在mongodb。[18]: https://github/pakoo/tbcrawler

stockholm[19]- 一个股票数据(沪深)爬虫和选股策略测试框架。根据选定的日期范围抓取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到JSON文件、CSV文件。[19]https://github/benitoro/stockholm

python3网络爬虫 (6)-分析知乎问题页面数据 营销视频课程

img

韶碧

关注

注:本文只做数据来源分析,暂未抓取数据

1. 打开知乎页面(地址来自上次爬虫爬取的数据)

示例: https://zhihu/question/41508191

2. 打开可以看到需要抓取的数据有(标签、标题、描述、答案)

页面

3. 查看网页请求状况(由于该问题答案较少,暂时用 https://zhihu/question/65381487 查看接口数据)

可以发现答案的接口。(还有相似问题和相关live,暂时没有用到)

查看接口

4. 由于我们请求到的网页中的js是不会执行的,所以我们先禁用浏览器js(js禁用方法,请自行百度)

禁用js后的页面

5. 接口只能看到答案,所以我们还需要在页面上找到其他数据

经过对比发现,js执行过的描述是有图片的,但是js未执行的没有图片,描述不够完整。

但是没有描述的请求,所以,猜测描述被隐藏在了页面的其他地方

搜索中的描述部分内容,可以发现确实被隐藏在了标签中

6. 将描述内容格式化

格式化后发现,需要获取的标签、标题、描述等信息均在里面,不用再去网站上查找其他接口

格式化数据

喜欢就点个赞吧!

最全知乎专栏合集:python、爬虫、数据分析、挖掘、ML、NLP、DL 公司视频课程

img

闪啊闪

关注

上一篇文章《爬取11088个知乎专栏,打破发现壁垒》里提到,知乎官方没有搜素专栏的功能,于是我通过爬取几十万用户个人主页所专注的专栏从而获取到11088个知乎专栏。

本回筛选出其中涉及:编程、python、爬虫、数据分析、挖掘、ML、NLP、DL等关键词的专栏,按照排名、关注人数、专栏名称、专栏简介等顺序,罗列出史上最全专栏合集,以供大家顺藤摸瓜、前去观摩和学习。

筛选出来的专栏数据和全部11088个专栏数据,评论区有获取方式。对其他主题的专栏感兴趣的可自行去搜寻,有兴致搞出个“专栏”搜索功能的小伙伴也可以尝试下!

另外已开始对11088个专栏里的数据进行进一步爬取,之后会继续相关分析和资源分享。

TOP29系列,1万+关注:

No.1, 157960, 数据冰山, https://zhuanlan.zhihu/hemingke

(No.2, 112088,学习编程,莫道君行早,更有早行人。全心敲代码,天道自酬勤)(不小心漏了TOP2专栏,简直蠢哭)

No.2, 62106, 行为与认知神经科学, https://zhuanlan.zhihu/ibrain

No.3, 50136, 机器之心, https://zhuanlan.zhihu/jiqizhixin

No.4, 37234, 企业分析, https://zhuanlan.zhihu/company-research

No.5, 35642, 挖掘知乎里有趣的东西, https://zhuanlan.zhihu/grapeot

No.6, 34389, 智能单元, https://zhuanlan.zhihu/intelligentunit

No.7, 31283, Python中文社区, https://zhuanlan.zhihu/zimei

No.8, 28949, Python之美, https://zhuanlan.zhihu/python-cn

No.9, 24053, 地图、地理与区域, https://zhuanlan.zhihu/geo-space

No.10, 21719, Moneycode, https://zhuanlan.zhihu/ricequant

No.11, 21586, vn.py, https://zhuanlan.zhihu/vn-py

No.12, 21581, 黑客与画家, https://zhuanlan.zhihu/hacker-and-painter

No.13, 21522, 面向工资编程, https://zhuanlan.zhihu/auxten

No.14, 21042, 编程语言与高级语言虚拟机杂谈(仮), https://zhuanlan.zhihu/hllvm

No.15, 18786, 深度学习大讲堂, https://zhuanlan.zhihu/dlclass

No.16, 17957, BitTiger.io, https://zhuanlan.zhihu/bittiger

No.17, 16257, 一起学习python网络爬虫, https://zhuanlan.zhihu/gooseeker

No.18, 15751, 数据分析侠, https://zhuanlan.zhihu/dataman

No.19, 14847, 做游戏,学编程(C语言), https://zhuanlan.zhihu/c2game

No.20, 14792, 数据时光机, https://zhuanlan.zhihu/washu

No.21, 12908, 不宜公开, https://zhuanlan.zhihu/xiaoliangshan

No.22, 12606, Jiang的金融窝, https://zhuanlan.zhihu/quantjiang

No.23, 12131, 无痛的机器学习, https://zhuanlan.zhihu/hsmyy

No.24, 11635, 新一线城市研究所, https://zhuanlan.zhihu/therisinglab

No.25, 11629, Crossin的编程教室, https://zhuanlan.zhihu/crossin

No.26, 11012, 一个数据分析师的自我修养, https://zhuanlan.zhihu/data-analyst-improvement

No.27, 10932, Hello 陈然!, https://zhuanlan.zhihu/chenran

No.28, 10619, 爬虫之从入门到精通, https://zhuanlan.zhihu/pachong

No.29, 10254, Data Science with R&Python, https://zhuanlan.zhihu/rdatamining

5千+关注:

No.30, 9969, 集智, https://zhuanlan.zhihu/c_81843036

No.31, 9127, PRML, https://zhuanlan.zhihu/prml-paper-reading

No.32, 8568, 量化哥, https://zhuanlan.zhihu/uqer2015

No.33, 8515, AI学人, https://zhuanlan.zhihu/aixueren

No.34, 8114, 数据驱动业务增长, https://zhuanlan.zhihu/growingio

No.35, 7820, 前端周刊, https://zhuanlan.zhihu/feweekly

No.36, 7790, Analytics at Work, https://zhuanlan.zhihu/analyticsatwork

No.37, 7745, R语言中文社区, https://zhuanlan.zhihu/rshequ

No.38, 6957, Python 与 机器学习, https://zhuanlan.zhihu/carefree0910-pyml

No.39, 6944, 超智能体, https://zhuanlan.zhihu/YJango

No.40, 6842, 大数据分析挖掘, https://zhuanlan.zhihu/hellobi

No.41, 6823, 技术备忘录, https://zhuanlan.zhihu/mathNote

No.42, 6775, Hic Rhodus, hic salta, https://zhuanlan.zhihu/HicRhodushicsalta

No.43, 6753, 机器学习算法与自然语言处理, https://zhuanlan.zhihu/qinlibo-ml

No.44, 6700, 科技蟹, https://zhuanlan.zhihu/kejixie

No.45, 6641, 某熊的全栈之路, https://zhuanlan.zhihu/wxyyxc1992

No.46, 6559, 风险狗的数据分析之路, https://zhuanlan.zhihu/loan-analytics

No.47, 6328, Joe's Studio & Cafe, https://zhuanlan.zhihu/hijoe

No.48, 6222, 菜鸟学数据挖掘, https://zhuanlan.zhihu/datanalysis

No.49, 5438, Python之禅, https://zhuanlan.zhihu/pythoneer

No.50, 5391, 混沌巡洋舰, https://zhuanlan.zhihu/c_29122335

No.51, 5241, R语言数据分析与可视化, https://zhuanlan.zhihu/EasyCharts-R

No.52, 5224, 数据分析网, https://zhuanlan.zhihu/afenxi

No.53, 5218, Python高薪训练营, https://zhuanlan.zhihu/c_111369541

No.54, 5171, 福山·雅·致, https://zhuanlan.zhihu/heziyin

No.55, 5100, 晓雷机器学习笔记, https://zhuanlan.zhihu/xiaoleimlnote

No.56, 5072, AI Insight, https://zhuanlan.zhihu/ai-insight

No.57, 5064, PYTHON挖掘机, https://zhuanlan.zhihu/python-excavator

No.58, 5051, Hello, Flask!, https://zhuanlan.zhihu/flask

1千+关注:

No.59, 4882, 机器学习 & 金融量化分析, https://zhuanlan.zhihu/jjscience

No.60, 4754, 自学游戏开发, https://zhuanlan.zhihu/studygame

No.61, 4674, 前端之巅, https://zhuanlan.zhihu/qianduanzhidian

No.62, 4609, 集智·人工智能招聘, https://zhuanlan.zhihu/qiuneitui

No.63, 4600, Python爬虫实战, https://zhuanlan.zhihu/pythoncrawl

No.64, 4566, Python Hacker, https://zhuanlan.zhihu/python-hacker

No.65, 4494, 炼丹实验室, https://zhuanlan.zhihu/easyml

No.66, 4445, LeanReact, https://zhuanlan.zhihu/leanreact

No.67, 4410, 深度炼丹, https://zhuanlan.zhihu/c_94953554

No.68, 4217, 简快Excel之PowerBI建模分析, https://zhuanlan.zhihu/leigongzi

No.69, 4132, [运筹帷幄]大数据和人工智能时代下的运筹学, https://zhuanlan.zhihu/operations-research

No.70, 4067, 深度学习:从入门到放弃, https://zhuanlan.zhihu/startdl

No.71, 4001, 天善智能, https://zhuanlan.zhihu/tianshansoft

No.72, 3937, 数据化管理, https://zhuanlan.zhihu/dataware

No.73, 3934, 开始学习机器人, https://zhuanlan.zhihu/learn-robotics

No.74, 3886, 强化学习知识大讲堂, https://zhuanlan.zhihu/sharerl

No.75, 3796, 浅墨的游戏编程, https://zhuanlan.zhihu/game-programming

No.76, 3747, 莫烦, https://zhuanlan.zhihu/morvan

No.77, 3745, 高中文综实验室, https://zhuanlan.zhihu/liberart-Lab

No.78, 3738, Data Science, https://zhuanlan.zhihu/gongwenjia

No.79, 3685, 建筑可视化设计, https://zhuanlan.zhihu/uzing

No.80, 3673, MySQL, https://zhuanlan.zhihu/mysql

No.81, 3599, 备战考研, https://zhuanlan.zhihu/SunLifeDreamer

No.82, 3590, Python程序员, https://zhuanlan.zhihu/pythoncxy

No.83, 3575, 从零开始写Python爬虫, https://zhuanlan.zhihu/Ehco-python

No.84, 3564, 灵的随笔记, https://zhuanlan.zhihu/ZeitMark

No.85, 3532, 萌新的学习日记, https://zhuanlan.zhihu/linjichu

No.86, 3526, 李彬教你考注会, https://zhuanlan.zhihu/c_77735210

No.87, 3517, 钢笔爱好者, https://zhuanlan.zhihu/v2bber

No.88, 3449, 管中窥豹, https://zhuanlan.zhihu/whiteheart

No.89, 3402, 智能水桶, https://zhuanlan.zhihu/smartspew

No.90, 3399, 数据是个锤子, https://zhuanlan.zhihu/datahammer

No.91, 3346, Python学习之路, https://zhuanlan.zhihu/python-kivy

No.92, 3302, 数据分析师的成长之路, https://zhuanlan.zhihu/datamap

No.93, 3221, Runtime, https://zhuanlan.zhihu/chenjiadong

No.94, 3220, 点点墨, https://zhuanlan.zhihu/junmo520

No.95, 3202, TOMsInsight, https://zhuanlan.zhihu/tomsinsight

No.96, 3170, 什么值得爬, https://zhuanlan.zhihu/c_80099524

No.97, 3118, 半个量化交易员, https://zhuanlan.zhihu/semi-quant-trader

No.98, 3104, 日积跬步, https://zhuanlan.zhihu/improve365

No.99, 3102, gluon, https://zhuanlan.zhihu/gluon

No.100, 3071, 蛇之魅惑, https://zhuanlan.zhihu/python-dev

No.101, 3058, Linux, https://zhuanlan.zhihu/LearningLinux

No.102, 3050, 马志峰的编程笔记, https://zhuanlan.zhihu/mazhifeng

No.103, 3036, DT新纪元, https://zhuanlan.zhihu/dteratech

No.104, 3012, 原点实验室, https://zhuanlan.zhihu/cndatalab

No.105, 2912, 分布式笔记, https://zhuanlan.zhihu/b-tree

No.106, 2876, 2gua的编程生活, https://zhuanlan.zhihu/guagua

No.107, 2827, 写点Python, https://zhuanlan.zhihu/something-python

No.108, 2811, 撩撩数据吧, https://zhuanlan.zhihu/jiago

No.109, 2805, 非凸优化学习之路, https://zhuanlan.zhihu/optimization

No.110, 2786, Revit 专栏, https://zhuanlan.zhihu/RevitForum

No.111, 2755, VV Data Science, https://zhuanlan.zhihu/vieplivee

No.112, 2740, DαΓαSciεηce, https://zhuanlan.zhihu/datascience

No.113, 2700, 友盟专栏, https://zhuanlan.zhihu/umeng

No.114, 2685, 无人机日常, https://zhuanlan.zhihu/uavsdaily

No.115, 2668, 有意思的数据挖掘, https://zhuanlan.zhihu/data-mining

No.116, 2668, DT财经, https://zhuanlan.zhihu/dtcaijing

No.117, 2654, 人工智能学习笔记, https://zhuanlan.zhihu/c_80412427

No.118, 2553, Still的数据分析笔记, https://zhuanlan.zhihu/DataScientist

No.119, 2548, 人工智能应用系列, https://zhuanlan.zhihu/ai4application

No.120, 2464, 清雨的 Data Science 笔记, https://zhuanlan.zhihu/TsingJyuData

No.121, 2396, 帆软数据应用研究院, https://zhuanlan.zhihu/fanruan

No.122, 2383, 数据黑板, https://zhuanlan.zhihu/data-factory

No.123, 2299, 诸葛io, https://zhuanlan.zhihu/zhugeio

No.124, 2255, golang数据结构内部实现, https://zhuanlan.zhihu/goroutine

No.125, 2236, 数据可视化, https://zhuanlan.zhihu/datavis

No.126, 2206, Python高手之路, https://zhuanlan.zhihu/mingxinglai

No.127, 2181, Excel图表之道, https://zhuanlan.zhihu/ExcelPro

No.128, 2162, 设计与人工智能, https://zhuanlan.zhihu/designintelligence

No.129, 2157, 机器人开发的那些事, https://zhuanlan.zhihu/c_32667517

No.130, 2145, 不动点高校现充部, https://zhuanlan.zhihu/fixpoint-high-school

No.131, 2144, Swift, https://zhuanlan.zhihu/swift

No.132, 2132, 大数据技术与实践, https://zhuanlan.zhihu/hadoop

No.133, 2121, 缪斯夫人, https://zhuanlan.zhihu/msmueses

No.134, 2120, 小X的互联网投资, https://zhuanlan.zhihu/thanksalot

No.135, 2108, 计算主义, https://zhuanlan.zhihu/pillgrim

No.136, 2080, 深海遨游, https://zhuanlan.zhihu/deeplearning-surfing

No.137, 2032, 我的JA♂VA日记, https://zhuanlan.zhihu/JAVAShinNippori

No.138, 2022, Python库学习之路, https://zhuanlan.zhihu/pystudy

No.139, 2005, 人工智能+机器学习+深度学习技术文章精选, https://zhuanlan.zhihu/c_86691882

No.140, 1990, 边城的编程, https://zhuanlan.zhihu/cold-code

No.141, 1987, 写给妹子的深度学习教程, https://zhuanlan.zhihu/dlgirls

No.142, 1942, 机器有颗玻璃心, https://zhuanlan.zhihu/wjdml

No.143, 1936, 信号处理与机器学习, https://zhuanlan.zhihu/aresmiki

No.144, 1933, 中低频量化交易与AI, https://zhuanlan.zhihu/quantwithAI

No.145, 1894, 文因互联, https://zhuanlan.zhihu/c_45652868

No.146, 1889, 文艺码农之家, https://zhuanlan.zhihu/elegant

No.147, 1859, 一图一书, https://zhuanlan.zhihu/yituyishu

No.148, 1858, 一周一paper, https://zhuanlan.zhihu/one-paper-a-week

No.149, 1845, Python 爬虫实战日记, https://zhuanlan.zhihu/Waking-up

No.150, 1838, 片上神经网络, https://zhuanlan.zhihu/DNN-on-Chip

No.151, 1832, Take AI Seriously, https://zhuanlan.zhihu/aifirst

No.152, 1798, Python开发微信公众号, https://zhuanlan.zhihu/sufaith

No.153, 1725, excel讲堂, https://zhuanlan.zhihu/excelskills

No.154, 1721, 贩卖集装箱的汽车大师, https://zhuanlan.zhihu/cantonax

No.155, 1719, 面试常见算法80题, https://zhuanlan.zhihu/80algorithms

No.156, 1703, 理论与机器学习, https://zhuanlan.zhihu/theoretical-machine-learning

No.157, 1703, 无线技术大讲堂, https://zhuanlan.zhihu/dot11

No.158, 1688, 网络高并发编程, https://zhuanlan.zhihu/yedongfu

No.159, 1658, Python数据采集处理分析挖掘可视化应用实例, https://zhuanlan.zhihu/boken

No.160, 1655, Scratch编程, https://zhuanlan.zhihu/scratch

No.161, 1642, 小石头的码疯窝, https://zhuanlan.zhihu/burness-DL

No.162, 1620, 「数据科学」思维导图笔记, https://zhuanlan.zhihu/woaielf

No.163, 1614, 机器人的那些事, https://zhuanlan.zhihu/cobot

No.164, 1592, 数据结构与算法, https://zhuanlan.zhihu/DataStructureAndAlgorithm

No.165, 1588, 纽扣数据, https://zhuanlan.zhihu/niucodata

No.166, 1586, AI+设计, https://zhuanlan.zhihu/AIdesign

No.167, 1572, 我的java学习之路及习惯, https://zhuanlan.zhihu/c_120823325

No.168, 1564, 杠杆游戏, https://zhuanlan.zhihu/gangganyouxi

No.169, 1559, 飞总的IT世界面面观, https://zhuanlan.zhihu/feizong

No.170, 1554, 数据应用学院, https://zhuanlan.zhihu/c_60877174

No.171, 1548, 上善若水——游戏公司财务档案, https://zhuanlan.zhihu/hai1900

No.172, 1536, xTechDay, https://zhuanlan.zhihu/xTechDay

No.173, 1478, 简单易懂的Python, https://zhuanlan.zhihu/easypython

No.174, 1471, 机器不学习, https://zhuanlan.zhihu/zhaoyeyu

No.175, 1429, 神经网络与强化学习, https://zhuanlan.zhihu/c_101836530

No.176, 1424, DL(Deep Learning)小记, https://zhuanlan.zhihu/Charles-Wang

No.177, 1413, 娱乐硬糖, https://zhuanlan.zhihu/yuleyingtang

No.178, 1401, 数据科学沉思录, https://zhuanlan.zhihu/data-science-meditation

No.179, 1395, 前端小记, https://zhuanlan.zhihu/qianduan

No.180, 1386, 高斯世界下的Machine Learning, https://zhuanlan.zhihu/gpml2016

No.181, 1368, 声学与人工智能, https://zhuanlan.zhihu/chenxl

No.182, 1362, 机器鼓励师手册, https://zhuanlan.zhihu/Stark

No.183, 1361, Udacity | 优达学习笔记, https://zhuanlan.zhihu/youdanote

No.184, 1361, 诸事无常,唯死亡与税永恒, https://zhuanlan.zhihu/c_86275978

No.185, 1348, 山人.七-深度学习, https://zhuanlan.zhihu/shanren7

No.186, 1338, 大数据Spark, https://zhuanlan.zhihu/bigdata-spark...

基于python的知乎开源爬虫 zhihu 营销视频课程

img

卡内基

关注

今天在无意之中发现了一个知乎的开源爬虫,是基于Python的,名字叫zhihu_oauth,看了一下在github上面star数还挺多的,貌似文档也挺详细的,于是就稍微研究了一下。发现果然很好用啊。就在这里给大家介绍一下如何使用。

项目的主页地址在:https://github/7sDream/zhihu-oauth。作者的知乎主页为:https://zhihu/people/7sdream/。

项目的文档地址为:http://zhihu-oauth.readthedocs.io/zh_CN/latest/index.html 。讲道理,原作者对于该怎么使用这个库已经讲的非常详细了,我在这里再重复一遍简直就是画蛇添足。所以大家要是想详细了解这个库怎么用,就去官方文档吧。我只说一下我觉得需要补充的重要的几点。

首先是安装。作者已经将项目上传到pypi了,所以我们可以直接使用pip进行安装了。按照作者的说法,项目对于Python3的支持更好,淡然目前也是兼容Python2的,所以大家最好使用python3.直接 pip3 install -U zhihu_oauth 即可安装。

安装好了第一步就是登陆。直接使用下面的代码就可以登陆。1 from zhihu_oauth import ZhihuClient 2 from zhihu_oauth.exception import NeedCaptchaException 3 client = ZhihuClient 4 user = 'email_or_phone' 5 pwd = 'password' 6 try: 7 client.login(user, pwd) 8 print(u"登陆成功!") 9 except NeedCaptchaException: # 处理要验证码的情况 10 # 保存验证码并提示输入,重新登录 11 with open('a.gif', 'wb') as f: 12 f.write(client.get_captcha) 13 captcha = input('please input captcha:') 14 client.login('email_or_phone', 'password', captcha) 15 16 client.save_token('token.pkl') # 保存token 17 #有了token之后,下次登录就可以直接加载token文件了 18 # client.load_token('filename')

上面的代码是直接使用账号密码登陆,最后保存了登陆之后的token,在下次登录的时候我们就可以直接使用token登录而不用每次都输入密码了。

在登录完成之后,可以干的事情当然就很多了,比如下面的代码就可以获得自己的知乎账户的基本信息1 from __future__ import print_function # 使用python3的print方法 2 from zhihu_oauth import ZhihuClient 3 4 client = ZhihuClient 5 client.load_token('token.pkl') # 加载token文件 6 # 显示自己的相关信息 7 me = client.me 8 9 # 获取最近 5 个回答 10 for _, answer in zip(range(5), me.answers): 11 print(answer.question.title, answer.voteup_count) 12 13 print('----------') 14 15 # 获取点赞量最高的 5 个回答 16 for _, answer in zip(range(5), me.answers.order_by('votenum')): 17 print(answer.question.title, answer.voteup_count) 18 19 print('----------') 20 21 # 获取最近提的 5 个问题 22 for _, question in zip(range(5), me.questions): 23 print(question.title, question.answer_count) 24 25 print('----------') 26 27 # 获取最近发表的 5 个文章 28 for _, article in zip(range(5), me.articles): 29 print(article.title, article.voteup_count)

当然可以干的事情还远远不止这些,比如我们知道了某个问题的url地址或者问题id,就可以获得这个问题下有多少个回答,作者的信息等等一系列详细的信息。开发者想的真的挺周到的,一般常见的需要的信息基本全部都包括了。具体的代码我就不贴了,大家自行参考官方文档。

一个小的tips:由于这个库有好多个类,比如获得作者信息的类,获得文章信息的类等等。每个类都有非常多的方法,我去看了一下官方文档,作者有些类的属性就没有完全列出来,那么我们怎么查看这个类全部的属性呢?其实很简单,只需要使用python的dir函数就可以了,使用dir(object)可以查看object类(或对象)的全部属性。比如我们有一个answer类对象,使用dir(answer)就会返回answer对象所有属性的列表。除去默认的一些属性之外,我们就可以找到这个类的我们需要的属性了,很方便吧。(下面是collection即收藏夹类的全部属性)

['__class__', '__delattr__', '__dict__', '__doc__', '__format__', '__getattribute__', '__hash__', '__init__', '__module__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_build_data', '_build_params', '_build_url', '_cache', '_data', '_get_data', '_id', '_method', '_refresh_times', '_session', 'answer_count', 'answers', 'articles', 'comment_count', 'comments', 'contents', 'created_time', 'creator', 'description', 'follower_count', 'followers', 'id', 'is_public', 'pure_data', 'refresh', 'title', 'updated_time']

最后,我使用这个类,抓取了知乎某个问题下所有回答中的图片(抓美女图,哈哈哈哈),只用了不到30行代码(去掉注释)。分享给大家。1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @Time : 2017/5/3 14:27 4 # @Author : Lyrichu 5 # @Email : 919987476@qq 6 # @File : save_images.py 7 ''' 8 @Description:保存知乎某个问题下所有答案的图片 9 ''' 10 from __future__ import print_function # 使用python3的print方法 11 from zhihu_oauth import ZhihuClient 12 import re 13 import os 14 import urllib 15 16 client = ZhihuClient 17 # 登录 18 client.load_token('token.pkl') # 加载token文件 19 id = 24400664 # https://zhihu/question/24400664(长得好看是一种怎么样的体验) 20 question = client.question(id) 21 print(u"问题:",question.title) 22 print(u"回答数量:",question.answer_count) 23 # 建立存放图片的文件夹 24 os.mkdir(question.title + u"(图片)") 25 path = question.title + u"(图片)" 26 index = 1 # 图片序号 27 for answer in question.answers: 28 content = answer.content # 回答内容 29 re_compile = repile(r'') 30 img_lists = re.findall(re_compile,content) 31 if(img_lists): 32 for img in img_lists: 33 img_url = img[0] # 图片url 34 urllib.urlretrieve(img_url,path+u"/%d.jpg" % index) 35 print(u"成功保存第%d张图片" % index) 36 index += 1

如果要是自己写的话,直接抓取解析网页是无法获得全部回答的,所以只能去破解知乎的api,比较麻烦,使用这个现成的轮子就方便很多了。以后想慢慢欣赏知乎的美女就再也不用发愁啦,嘿嘿嘿。

Python模拟登录知乎!你可能见过很多教程!这篇是史上最详细的! 企业视频课程

img

托伯莫里

关注

前言

前天看到一个爬取了知乎50多万评论的帖子, 羡慕的同时也想自己来尝试一下。看看能不能获取一些有价值的信息。

这就是referer起到的作用,服务器在接收到一个请求的时候先判断Referer是否为本站的地址。如果是的话就返回正确的资源;如果不是,就返回给客户端预先准备好的“警示”资源。

如果网站仅仅做到了这一步,而你的程序又恰好添加了User-Agent,基本上就可以顺利的蒙混过关了。

隐藏域

很多时候,我们模拟登录的时候需要提交的数据并不仅仅是用户名密码,还有一些隐藏域的数据。比如拿咱们CSDN来说,查看登录页

模拟登录

在正式的模拟登录知乎之前,我先来写个简单的小例子来加深一下印象。

浏览器测试

正常提交用户名密码的话如下:

我们不难发现,服务器端和客户端使用了相同的计算规则,这样的话我们就可以实现对客户端的登录请求进行一次简答的甄选了。正常的浏览器请求都是没有问题的。

用户名或者密码填写错误的情况如下:

运行的结果如下:

因为我们”不知道”服务器端是怎么对token处理的具体的逻辑。所以还是需要从客户端的网页下手。

且看下面的图片。

注意:这里仅仅是为了演示的方便,采用了对username字段失去焦点时计算token。实际上在网页被拉取到客户端浏览器的时候, 服务器会事先计算好token的值,并赋予到token字段的。所以大可不必计较这里的实现。

Python代码

实现效果如下:

实现的效果如下

更新版知乎模拟登陆

代码部分

验证效果

谢谢阅读,希望你能学会哦!

如何抓取这些网站数据?python源码大全,包括微信,知乎。QQ,豆瓣,天猫京东等 企业视频课程

img

Girvan

关注

WechatSogou[1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。[1]: https://github/Chyroc/WechatSogou

DouBanSpider[2]- 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet ,采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封。[2]: https://github/lanbing510/DouBanSpider

zhihu_spider[3]- 知乎爬虫。此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongodb。[3]: https://github/LiuRoy/zhihu_spider

bilibili-user[4]- Bilibili用户爬虫。总数据数:20119918,抓取字段:用户id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。抓取之后生成B站用户数据报告。[4]: https://github/airingursb/bilibili-user

SinaSpider[5]- 新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。[5]: https://github/LiuXingMing/SinaSpider

distribute_crawler[6]- 小说下载分布式爬虫。使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现,爬虫状态显示使用graphite实现,主要针对一个小说站点。[6]: https://github/gnemoug/distribute_crawler

CnkiSpider[7]- 中国知网爬虫。设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。[7]: https://github/yanzhou/CnkiSpider

LianJiaSpider[8]- 链家网爬虫。爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。[8]: https://github/lanbing510/LianJiaSpider

scrapy_jingdong[9]- 京东爬虫。基于scrapy的京东网站爬虫,保存格式为csv。[9]: https://github/taizilongxu/scrapy_jingdong

QQ-Groups-Spider[10]- QQ 群爬虫。批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。[10]: https://github/caspartse/QQ-Groups-Spider

wooyun_public[11]-乌云爬虫。 乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在mongodb中,大概约2G内容;如果整站爬全部文本和图片作为离线查询,大概需要10G空间、2小时(10M电信带宽);爬取全部知识库,总共约500M空间。漏洞搜索使用了Flask作为web server,bootstrap作为前端。[11]: https://github/hanc00l/wooyun_public

QunarSpider[12]- 去哪儿网爬虫。 网络爬虫之Selenium使用代理登陆:爬取去哪儿网站,使用selenium模拟浏览器登陆,获取翻页操作。代理可以存入一个文件,程序读取并使用。支持多进程抓取。[12]: https://github/lining0806/QunarSpider

findtrip[13]- 机票爬虫(去哪儿和携程网)。Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)。[13]: https://github/fankcoder/findtrip

163spider[14] - 基于requests、MySQLdb、torndb的网易客户端内容爬虫。[14]: https://github/leyle/163spider

doubanspiders[15]- 豆瓣电影、书籍、小组、相册、东西等爬虫集。[15]: https://github/dontcontactme/doubanspiders

QQSpider[16]- QQ空间爬虫,包括日志、说说、个人信息等,一天可抓取 400 万条数据。[16]:https://github/LiuXingMing/QQSpider

baidu-music-spider[17]- 百度mp3全站爬虫,使用redis支持断点续传。[17]: https://github/Shu-Ji/baidu-music-spider

tbcrawler[18]- 淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息,数据存储在mongodb。[18]: https://github/pakoo/tbcrawler

stockholm[19]- 一个股票数据(沪深)爬虫和选股策略测试框架。根据选定的日期范围抓取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到JSON文件、CSV文件。[19]https://github/benitoro/stockholm

Python模拟登录知乎!你可能见过很多教程!这篇是史上最详细的! 公司视频课程

img

林地

关注

前言

前天看到一个爬取了知乎50多万评论的帖子, 羡慕的同时也想自己来尝试一下。看看能不能获取一些有价值的信息。

这就是referer起到的作用,服务器在接收到一个请求的时候先判断Referer是否为本站的地址。如果是的话就返回正确的资源;如果不是,就返回给客户端预先准备好的“警示”资源。

如果网站仅仅做到了这一步,而你的程序又恰好添加了User-Agent,基本上就可以顺利的蒙混过关了。

隐藏域

很多时候,我们模拟登录的时候需要提交的数据并不仅仅是用户名密码,还有一些隐藏域的数据。比如拿咱们CSDN来说,查看登录页

模拟登录

在正式的模拟登录知乎之前,我先来写个简单的小例子来加深一下印象。

浏览器测试

正常提交用户名密码的话如下:

我们不难发现,服务器端和客户端使用了相同的计算规则,这样的话我们就可以实现对客户端的登录请求进行一次简答的甄选了。正常的浏览器请求都是没有问题的。

用户名或者密码填写错误的情况如下:

运行的结果如下:

因为我们”不知道”服务器端是怎么对token处理的具体的逻辑。所以还是需要从客户端的网页下手。

且看下面的图片。

注意:这里仅仅是为了演示的方便,采用了对username字段失去焦点时计算token。实际上在网页被拉取到客户端浏览器的时候, 服务器会事先计算好token的值,并赋予到token字段的。所以大可不必计较这里的实现。

Python代码

实现效果如下:

实现的效果如下

更新版知乎模拟登陆

代码部分

验证效果

谢谢阅读,希望你能学会哦!

img

在线咨询

建站在线咨询

img

微信咨询

扫一扫添加
动力姐姐微信

img
img

TOP