构建垂直搜索引擎 互动版

pyspider数据解析


  在上一节中我们介绍pyspider抓取数据,而其中有一个函数_detailpage,这个函数的功能是对数据进行解析。由于示例代码不满足我们要存取的数据格式,所以要对该函数进行修改,修改成我们想要的内容如下:

def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
            "content":response.doc('#article-content').text(),
        }