python爬虫 互动版

编写爬虫的流程

安装完成相关的工具和库以后就可以编写python爬虫了,设计并完成一个python爬虫的流程为

1.选择目标网站并设定爬取目标:在编写爬虫之前要确定爬取网站的页面是哪些,爬取是否需要登录等情况,并确定爬取目标,一般爬取的目标有文本(如名称,数字等文本信息),图片和文件三种。 2.编写爬虫,爬取页面信息:选择目标网站后就可以编写爬虫代码,并获取要爬取页面的信息了。python中获取页面信息的代码很简单,如下所示:

html = requests.get(url).text

其中url是要爬取的页面地址,html就是页面信息,通常用BeautifulSoup包进行页面信息解析。

soup = BeautifulSoup(html)

3.分析页面元素,获取要爬取得数据:获取页面以后就需要根据需求从页面选取数据,一般使用css selector或者xpath选取页面信息。建议学习并使用xpath,xpath学习可以参考w3c xpath。使用xpath获得几种常见的数据方法如下:

获取超链接地址

href=soup.xpath('//a/@href')

获取文本信息

text=soup.xpath('//li/a/text()')

获取图片地址

imgSrc=soup.xpath('//a/img/@src')

4.数据清洗:在将数据存入到数据库或文本中时需要将数据进行格式化或者整理,如去除所有的符号字符或按照设计要求组织数据格式。

5.数据存储:选择存储策略,可以存储在数据库中,也可以写入文本。具体事例可以参考下一节课程。