网页访问流程
一个典型的页面访问流程如下图
用户输入网址或者点击页面超链接后将向服务器发送请求,这个过程叫做request,服务器收到请求后根据请求地址和参数,组织资源返回给用户,这个过程叫做response。request由请求头部和请求体构成,在爬虫中request头部中的user-agent,refer字段涉及较多。在与服务器交互过程中还涉及cookie,cookie用来存储用户信息,当用户发送request请求时服务器根据携带的cookie进行用户识别等。 在chrome浏览器中使用‘开发者工具’可以查看请求信息,如下图所示