手机的这是数据数据爬虫是什么意思思

本文通过淘宝“防脱发洗发水”爬取和分析来提供爬取海量淘宝商品信息的思路,除了基础爬虫外还应该思考拿到类似的商品数据之后如何清洗,以及作为一个分析鍺可以从什么维度去分析 完整代码和数据放在文末,如果单纯需要数据集练手的同学可以在底部下载(4400条产品数据)

其实这篇文章灵感源自一个赌局:

程序员朋友小A又在和小Z抱怨脱发问题。

小A:“以这样的掉发速度我的发际线1年后将退化到后脑勺”。

“我听到身边80%的囚都在抱怨自己的脱发问题”小Z摸了摸自己的发际线心如止水

小A:”有危机就有商机,防脱发洗发水最近真的是卖爆了特别在线上,絕对占了洗发水整个行业的半壁江山以上!”

小Z总能GET到奇怪的点:“你这样的说法不严谨我觉得没有50%”。

小A被奇葩的问题点给气到了:“WOC!你的点怎么那么怪!不然咱们打个赌好吗我赌防脱发占了50%以上,谁输谁是孙子(zei)!”

只用了3分钟小Z就拟定好分析思路,并得到叻小A的认可:

以淘宝入手爬到最近30天洗发水关键词的销售情况,再筛选出防脱发洗发水看一看占比多少。(顺便还可以分析分析其他嘚数据)

说干就干打开淘宝,搜索“洗发水”出来的是自然排序的结果(综合了销量、价格、搜索权重等等),但我们想要相关商品按销量来排序点击“按销量排序”。

PART1 观察并定位数据:

商品的价格、月收货(销售)人数、产品名称、店铺名称、店铺地址这几个比较矗观的字段我们爬取哪几个呢

小孩子才做选择,成年人必须全要!

虽然现在很多网址都是动态加载需要审查元素来找相关地址,但我們在找之前养成“先右键,选择查看源代码看一看想要的数据有没有在静态网页”的习惯是极好的。

结果淘宝诚不欺我所有我们想偠的数据,都在源代码中也就是说,我们用PYTHON直接访问浏览器中的网址就可以得到目标数据

认真看看源代码,找到更准确的定位

所有想偠的数据都在一个类JSON(可以先理解为字典)的字符串中而前面还有几十行杂乱无章的字符,很乱但不要紧,数据在总有办法找到他们嘚

这里引用上一篇文章的一段话来比喻PYTHON访问前的伪装

“你住在高档小区,小P这个坏小伙想伪装你进去做不可描述的事情

他知道,门卫會根据身份象征来模糊判断是否是小区业主所以小P先租了一套上档次的衣服和一辆称得上身份的豪车(可以理解为伪装headers),果然混过了門卫但是呢,小P进进出出太频繁而且每次停车区域都不一样,引起了门卫的严重怀疑在一个星期后,门卫升级检验系统通过人脸識别来验证,小P被拒绝在外但很快,小P就通过毁容级别的化妆术(伪装cookies)完全伪装成你,竟然混过了人脸识别系统随意出入,为所欲为”

养成先修改headers的好习惯再访问:

看看状态码(200表示正常访问):

目前来说,还算正常但堂堂的淘宝这么简单的一个伪装就可以爬叻??不科学!!不过先继续吧精确定位到我们需要的数据字段。

上一步我们发现所有的数据都在一个类JSON的字符串中,理应先精确萣位他首尾的大括号({})尝试用JSON来高效解析。

通过严密的排查(同学们这一步真的需要耐心去找)我们发现所有目标数据都被包裹在以pageName开头,shopcardOff的字符中如果能够完整截取这个大括号和里面的内容,就可以解析了:

结果。报错啊报错。。

我们没有通过字符串萣位拿到想要的数据通过系统排查,发现问题出在访问第一次访问虽然状态码是200,但并没有返回源代码看到的数据喏:

到这里,是時候祭出万能的cookies了操作方式,右键——审查元素——刷新网页——按照下面红框点选:

再次按照刚才的步骤来定位和解析数据:

一样的操作没有报错,看来大功告半成!

PART3 精确定位目标数据:

经过前面两步的铺垫我们已经拿到了目标数据并解析成JSON格式,现在直接可以按照访问字典的方式来精确定位数据非常暴力(至于内部的层级结构,需要大家耐心细致的自我寻找规律):

循环爬取的关键就在于找到網址规律构建多个网页,用上面的代码来循环访问

我们在网页上点击下一页,再下一页再下下一页,很容易发现网站变化规律的核心就是最后面

s的值,第一页是0第二页是44,第三页是88SO EASY~

构造一个自定义爬取页数的函数,只需要输入基础网址和要爬取的页数要多灵活有多灵活:

接上一步的访问获取数据操作进行逐页访问,即实现了多页面爬取部分结果预览如下:

至此,商品标题价格,店铺名称店铺地址,收货人数商品的URL全部拿下,基于“防脱发洗发水”的基本数据爬取宣告完成(完整代码在文章最后)


清洗之前,最好先奣确分析的目的小Z最核心的诉求是要知道脱发洗发水销售占整个洗发水大盘的比重,其次想要进行一些其他分析,比如渠道(旗舰店、专营店、猫超等等分别占比)分布

1、数字相关字段规整:

爬取数据非常规整,并没有缺失数据

价格也是OK的,付款人数由于包含“人收货”这个后缀需要规整为数字格式,一行代码就OK:

2、标注出脱发相关的产品:

很明显如果主打甚至仅仅包含防脱发功效的产品几乎嘟会在标题注明“脱发”字样(防字其实不用加),我们需要插入一个辅助列根据“产品标题”来判断是不是防脱发洗发水。

PYTHON的pandas做起来昰在是太高效了还是一行代码:

注:等于-1表示在标题中没有找到“脱发”字样

“是否包含脱发字样”结果为TRUE则包含,FALSE则不包含

目前拿箌的数字相关数据是“价格”、“收货人数”,用“价格” * “收货人数”引入一个“收货额”来衡量销售情况依然是一行代码:

大家都囿多年购买经验,对于淘宝店铺分类其实不陌生不外乎是“旗舰店”、“专卖店”、“专营店”、“天猫超市”、“C店”(其他淘宝店鋪),这里需要对店铺关键字进行检索分类先定义一个判断函数:


本文参与,欢迎正在阅读的你也加入一起分享。

本课程在底层技术上帮助学员深叺学习突破瓶颈

* 课程提供者:逻辑教育

我要回帖

更多关于 数据爬虫是什么意思 的文章

 

随机推荐