爬虫的page.info page(为什么错了)

原标题:从爬虫到机器学习预测我是如何一步一步做到的?

本文转自:Python数据科学

【介绍】:一个半路转行的数据挖掘工程师

本篇主要介绍如何利用scrapy爬取链x和安x客的二手房源信息

文1578字 | 阅读需要8分钟

好多朋友对爬虫特别感兴趣,想知道爬虫部分是如何实现的本篇将分享这个项目的爬虫部分,算是数据汾析的一个"前传"

爬虫部分主要是通过爬取链x 安x客来获取二手房住房信息,因为考虑到不同网站的房源信息可以互补所以选择了两個网站。

爬取目标是北京二手房仅针对一个城市而言,数据量并不大所以直接采用Scrapy来完成爬取工作,然后将数据存储在csv格式的文件中最终爬取结果是这样的,链x的爬虫爬取了 30000+条数据安x客的爬虫爬取了 3000+条数据。不得不说链x的房源相对来讲还是比较全的

写一个爬虫最開始当然要想清楚需要获取什么样的数据了。本次项目对与二手房相关的数据都比较感兴趣可以自然的想到,每个房源链接的具体详细信息是最全的但考虑到爬虫深度影响整体爬虫效率问题,并且房源列表中数据已经能够满足基本的要求并没有必要对每个详细链接进荇深入的爬取,因此最终选择爬取房源列表以下是房源列表(部分截图)中的房源信息:

确定以上爬取内容后,就开始爬虫部分的工作首先在/ershoufang/'

parse函数中,首先通过BeautifulSoup解析每个页码下的所有房源列表信息得到house_info page_list。链x房源列表中没有所在大区信息但是房源所在区域对于后续数據分析是很重要的,而仅通过页面解析我们没办法获取为了获得这个字段该如何实现呢?

安x客的反爬比较严重如果不使用代理ip池,速喥过快非常容易挂掉而链x的反爬相对没那么严格,速度可以很快

本书系统地介绍Python应用程序设计方法,主要内容包括Python语法快速入门、类與模块、图形用户界面设计、绘图及数字图像处理、文件与数据库操作、多线程、异常处理及正则表达式、网络编程与网络爬虫设计、算法设计与机器学习实战等本书每章都配有视频教学内容,以帮助读者学习和理解

怎样配置mybatis这里就不提了,我来说说峩配置这个分页插件的过程吧

Pageinfo page这个类是插件里的类,这个类里面的属性还是值得看一看:

//当前页面第一个元素在数据库中的行号 //当前页媔最后一个元素在数据库中的行号

二、需要分页自然就还要一个查询了。用了PageHelper之后查询语句就可以很简单了。

这是我的查询语句查詢城市列表。没有其他条件就是查所有。当然我这只是一个小的demo,没做那么麻烦真正的使用,是需要条件查询的
现在来讲讲用了PageHelperの后的好处:
那就是查询语句可以不用limit,但是就一点好处吗自然不是。请接着往下看

三、接口、实现类我就不再贴代码了,该怎么写還是怎么写不需要传分页参数。然后是Controller:

版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明

我要回帖

更多关于 info page 的文章

 

随机推荐