模拟登录
爬取很多目标网站的页面信息时都有登录的要求,本节将讲解如何使用程序进行表单提交进而完成用户登录。
一般的模拟登录流程如下:
1. 查看需要提交的表单信息
通过页面及chrome工具查看request中的request payload即可确认登录时需要提交的数据有哪些。再此提醒注意,不要认为页面上填写的用户名和密码以及验证码就是请求的全部参数,很多网站会自动添加其他参数(如时间戳,版本信息,网站附加字符等),所以要认真检查request的过程提交参数有哪些。
2. 组织表单数据
确定了要提交的数据后就需要组织数据,组织数据时一般包括组装用户名,密码,获取相关参数,进行参数加密(一般会对密码进行加密,需要研究网站加密算法)等。
3. 数据提交,结果判断
提交通过requests.post方法完成,提交后获得返回数据,通过http返回的状态进行判断,当response.status==200时证明提交成功。