爬虫相关工具
工欲善其事,必先利其器。实现爬虫的过程不仅需要掌握各类知识还要懂得借助各类工具才能事半功倍。
- chrome浏览器:chrome浏览器自带的'开发者工具'功能很实用,使用这个小工具可以方便的查看页面信息以及查询定位页面元素
- python:建议使用python3.x,python2.x版本存在中文解编码问题,使用python3.x版本让人头疼的中文乱码问题。但需要提醒的是python爬虫框架scrapy目前只支持python2.x版本
- pip:python的包管理工具,安装以后可以方便的用来安装以下提到的库。使用pip安装包的命令为pip install xx 如安装requests包的命令是pip install requests
- requests库:网络中很多python爬虫使用的是urllib,urllib2来实现,这两个库使用比较繁琐,强烈建议使用 requests,该库使用起来方便简单,被称为'HTTP for humans'真正让人用的工具
- BeautifulSoup:解析网络结构的常用工具库,注意安装的使用是pip install bs4
- codecs:用来解决中文编码问题的库,具体使用方法见后续章节 除了以上工具,建议在Linux或mac os下进行程序编写。