思路
一、想要实现登录豆瓣关键点
分析真实post地址 ----寻找它的formdata,如下图,按浏览器的F12可以找到。
实战操作
- 实现:模拟登录豆瓣,验证码处理,登录到个人主页就算是success
- 数据:没有抓取数据,此实战主要是模拟登录和处理验证码的学习。要是有需求要抓取数据,编写相关的抓取规则即可抓取内容。
登录成功展示如图:
spiders文件夹中DouBan.py主要代码如下:
# -*- coding: utf-8 -*-import scrapy,urllib,refrom scrapy.http import Request,FormRequestimport ruokuai'''遇到不懂的问题?Python学习交流群:821460695满足你的需求,资料都已经上传群文件,可以自行下载!'''class DoubanSpider(scrapy.Spider): name = "DouBan" allowed_domains = ["douban.com"] #start_urls = ['http://douban.com/'] header={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36"} #供登录模拟使用 def start_requests(self): url='https:///create.xml", paramKeys, paramDict, filebytes) elif cmp(act, 'help') == 0: print 'info' print 'register' print 'recharge' print 'url' print 'report' print 'upload' print 'help' print 'exit' elif cmp(act, 'exit') == 0: break return result以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。