海带京东商城商品分类图片批量下载有哪些方法啊?

笔者曾经用python第三方库requests来爬取京东商城的商品页内容经过解析之后发现只爬到了商品页一半的图片。(这篇文章我们以爬取智能手机图片为例)

当鼠标没有向下滑时此時查看源代码的话,就会看到上图的内容只有三十个 li 标签(一个li标签中有一个图片地址)。

但是鼠标滑至底部后再查看源代码的话就会看到六十个 li 标签这才是我们真正需要爬取的内容。下图是鼠标滑至底部时的源代码

为什么会出现这种原因呢?这是因为京东商城的商品信息是通过动态加载的方式进行加载的而这种页面又被称为动态页面。要想爬取这种页面就必须模拟浏览器的行为和页面进行交互。python第三方库selenium恰好能做到这些,只需要将页面滑至底部就行

首先我们通过pip工具来安装selenium库:

通过分析每个页面的url链接,我找到了京东商品页每個网页的url的规律:

接着来分析一下图片的地址通过分析我找到了两种图片链接格式:

一种是上图所示的格式:

确定图片格式后,定义一个函数来解析网页中的图片地址,这里我用BeautifulSoup4库对其进行解析

# 提取网页的图片的网址
 # 对有效图片网址进行提取
 # 定义一个列表来获取分析得到嘚图片的网址
 
然后我们开始获取网页源代码,前面已经提到要想获取到完整的网页源代码,就需要浏览器和网页进行交互即让浏览器洎动执行一个向下滑至网页底部的动作,停顿几秒等待网页加载完成(这一步必须有,否则获得的网页源代码仍会不完整)待网页加載完成之后就可以获取网页源代码了。


这里使用selenium来使浏览器自动执行向下滑动至网页底部的动作:

# 执行页面向下滑至底部的动作
# 停顿5秒等待页面加载完毕!!!(必须留有页面加载的时间否则获得的源代码会不完整。)
 



最后总结一下这个爬虫有几个方面需要注意:1,每个商品页面对应的url。2,如何利用selenium + 浏览器来解决获取动态页面的源代码的问题3,如何完整提取每个商品页中的60张图片的url




使用javascript和html的css开发的防京东商城的商品分类菜单

我要回帖

更多关于 京东商城商品分类 的文章

 

随机推荐