原标题:从爬虫到机器学习预测我是如何一步一步做到的?
本文转自:Python数据科学
【介绍】:一个半路转行的数据挖掘工程师
本篇主要介绍如何利用scrapy爬取链x和安x客的二手房源信息
全文1578字 | 阅读需要8分钟
好多朋友对爬虫特别感兴趣,想知道爬虫部分是如何实现的本篇将分享这个项目的爬虫部分,算是数据汾析的一个"前传"篇
爬虫部分主要是通过爬取链x和 安x客来获取二手房住房信息,因为考虑到不同网站的房源信息可以互补所以选择了两個网站。
爬取目标是北京二手房仅针对一个城市而言,数据量并不大所以直接采用Scrapy来完成爬取工作,然后将数据存储在csv格式的文件中最终爬取结果是这样的,链x的爬虫爬取了 30000+条数据安x客的爬虫爬取了 3000+条数据。不得不说链x的房源相对来讲还是比较全的
写一个爬虫最開始当然要想清楚需要获取什么样的数据了。本次项目对与二手房相关的数据都比较感兴趣可以自然的想到,每个房源链接的具体详细信息是最全的但考虑到爬虫深度影响整体爬虫效率问题,并且房源列表中数据已经能够满足基本的要求并没有必要对每个详细链接进荇深入的爬取,因此最终选择爬取房源列表以下是房源列表(部分截图)中的房源信息:
确定以上爬取内容后,就开始爬虫部分的工作首先在/ershoufang/'
parse函数中,首先通过BeautifulSoup解析每个页码下的所有房源列表信息得到house_info page_list。链x房源列表中没有所在大区信息但是房源所在区域对于后续数據分析是很重要的,而仅通过页面解析我们没办法获取为了获得这个字段该如何实现呢?
安x客的反爬比较严重如果不使用代理ip池,速喥过快非常容易挂掉而链x的反爬相对没那么严格,速度可以很快
本书系统地介绍Python应用程序设计方法,主要内容包括Python语法快速入门、类與模块、图形用户界面设计、绘图及数字图像处理、文件与数据库操作、多线程、异常处理及正则表达式、网络编程与网络爬虫设计、算法设计与机器学习实战等本书每章都配有视频教学内容,以帮助读者学习和理解