编写爬虫的流程

安装完成相关的工具和库以后就可以编写python爬虫了，设计并完成一个python爬虫的流程为

1.选择目标网站并设定爬取目标：在编写爬虫之前要确定爬取网站的页面是哪些，爬取是否需要登录等情况，并确定爬取目标，一般爬取的目标有文本（如名称，数字等文本信息），图片和文件三种。 2.编写爬虫，爬取页面信息：选择目标网站后就可以编写爬虫代码，并获取要爬取页面的信息了。python中获取页面信息的代码很简单，如下所示：

html = requests.get(url).text

其中url是要爬取的页面地址，html就是页面信息,通常用BeautifulSoup包进行页面信息解析。

soup = BeautifulSoup(html)

3.分析页面元素，获取要爬取得数据：获取页面以后就需要根据需求从页面选取数据，一般使用css selector或者xpath选取页面信息。建议学习并使用xpath，xpath学习可以参考w3c xpath。使用xpath获得几种常见的数据方法如下：

获取超链接地址

href=soup.xpath('//a/@href')

获取文本信息

text=soup.xpath('//li/a/text()')

获取图片地址

imgSrc=soup.xpath('//a/img/@src')

4.数据清洗：在将数据存入到数据库或文本中时需要将数据进行格式化或者整理，如去除所有的符号字符或按照设计要求组织数据格式。

5.数据存储：选择存储策略，可以存储在数据库中，也可以写入文本。具体事例可以参考下一节课程。

python爬虫 互动版

编写爬虫的流程

python爬虫互动版