Python爬虫吧问题

贴吧图片爬虫吧进阶:在上次过後用了几次发现每爬一个帖子,都要自己手动输入帖子链接WTF这程序简直反人类!不行了不行了得改进改进


  • 贴吧的链接可以从每个贴吧首页爬取
  • 再从爬取到的贴吧链接中一个个去下载图片
  • 图片得按帖子放置好不然就太乱了

在这期间研究了下Xpath:

Xpath是一门在 XML 文档中查找信息嘚语言。XPath 可用来在 XML 文档中对元素和属性进行遍历

简单点来说就是能让你的爬虫吧通过标签的id、class、name等属性可以获取到标签的属性或内容的┅门语言,就不用去写讨厌的正则表达式了(刚开始用正则人都要炸了)

当然其实用re也能实现废话也不多说了,开始正题了


我们的目标當然是:壁纸吧、萌妹子、爆照吧等等等等

 通过右键检查、或是查看源码找到每个帖子的标签

 

点进去果然就是在前面多了串  

OK!那把链接爬取出来就相当容易了:


 先是一个帖子的图片下载:

# 通过所给帖子链接,下载帖子中所有图片 print u'请输入你要下载的帖子数:',

不要脸的说自我感覺良好23333

 内容(爬取的内容怎么和我不一样我不管23333)

我要回帖

更多关于 爬虫 的文章

 

随机推荐