贴吧图片爬虫吧进阶:在上次过後用了几次发现每爬一个帖子,都要自己手动输入帖子链接WTF这程序简直反人类!不行了不行了得改进改进。
在这期间研究了下Xpath:
Xpath是一门在 XML 文档中查找信息嘚语言。XPath 可用来在 XML 文档中对元素和属性进行遍历
简单点来说就是能让你的爬虫吧通过标签的id、class、name等属性可以获取到标签的属性或内容的┅门语言,就不用去写讨厌的正则表达式了(刚开始用正则人都要炸了)
当然其实用re也能实现废话也不多说了,开始正题了
我们的目标當然是:壁纸吧、萌妹子、爆照吧等等等等
通过右键检查、或是查看源码找到每个帖子的标签
点进去果然就是在前面多了串
OK!那把链接爬取出来就相当容易了:
先是一个帖子的图片下载:
不要脸的说自我感覺良好23333
内容(爬取的内容怎么和我不一样我不管23333)