能利用爬虫技术做到哪些很酷很有趣很有用有趣的事情作文300字

能利用爬虫技术做到哪些很酷很有趣很有用的事情?
准备学习python爬虫。各位大神都会用爬虫做哪些有趣的事情?今天突然想玩玩爬虫,就提了这个问题。跟着YouTube上的一个tutor写了个简单的程序,爬了一点豆瓣的数据。主要用到request和bs4(BeautifulSoup)模块。虽然简陋,毕竟是人生中的第一只爬虫啊……以示纪念,代码写在博客里了:
按时间排序
410 个回答
去年开始研究做爬虫,搞了一套分布式的爬虫系统,主要目标是帮别人做数据采集。后来看到,进而关注了《数据冰山》,发现里面的大数据分析的文章都相当有意思,图表也一个比一个专业。我当时的表情大约是这样的:我的天哪,这么神奇吗? 放下手机,操起键盘,正准备也搞上一篇 “大数据分析:郭德纲和女演员的相爱相杀之后,wuli涛涛是如何火起来的”。后来转念一想,这不是赤果果的抄袭了,妈妈是怎么教导我的。再说了,以我这样的实力,写了这样的文章,以后别人还怎么写呢?俗话说得好:授人以鱼不如授人以渔,独乐乐不如众乐乐。不如我们就以黄焖鸡米饭为例,给大家讲讲如何才能写出这样一篇图文并茂的分析文章来吧。先来一段硬广:本文所有代码,都需要运行在本人搭建的神箭手云爬虫框架上,打算完全自己写爬虫的同学,领会精神即可。数据来源分析首先需要黄焖鸡米饭门店的创建时间,来分析黄焖鸡米饭随时间的增长,其次需要门店的地域信息来分析不同地域黄焖鸡米饭的增长情况。分析大众点评的商户门店信息,可以在商户的贡献榜页面找到相关的信息,如下图:这里需要对数据作几个近似处理:仅选取商户名中包含"黄焖鸡米饭"的门店将商户的添加时间近似看作门店的创建时间大众点评无法查到已经关闭的商户,所以这里不考虑门店的关闭,仅选取现存的门店开始写爬虫上面分析了对数据的需求,下面就开始动手写爬虫爬取数据啦~ 熟悉爬虫的人都知道,一个爬虫的基本工作流程是:首先挑选一部分种子URL(也可以叫入口URL),并放入到待爬队列中从待爬队列中取出一个URL,下载内容并从中抽取信息,同时发现新URL,并加入到待爬队列中。重复此步骤,直至待爬队列为空。上面加粗了3个重点,种子URL、抽取信息和发现新URL。种子URL也可以叫入口URL,爬虫以这些URL为入口,以某种规则发现新的URL,最终爬遍所有想要的网页。为了爬取高效,我决定直接用大众点评的搜索,选择大众点评的搜索结果页作为入口URL,爬取结果页的所有商户并筛选后作为样本数据。大众点评的搜索也是分区域的,要把所有区域的搜索结果页都作为入口URL,形如{region_id}/0_%E9%BB%84%E7%84%96%E9%B8%A1%E7%B1%B3%E9%A5%AD其中region_id从1到2323(很容易可以发现此范围内是中国的区域,数字再大就到国外了,如果多了或者少了请告诉我)。抽取信息从网页中抽取信息,最常用的是xpath,这里我们需要抽取商户id(防止重复),商户名称(过滤掉不含黄焖鸡米饭的),创建时间,区域名称,省份是没有的,需要根据区域名称得到。xpath可以结合Chrome的开发者工具来写,并通过xpath插件来验证,下面给出这几项数据的xpath:商户id,抽取的数据中包含其他商户id,需要进一步处理来得到id//div[contains(@class,'shop-review-wrap')]/div/h3/a/@href商户名称//div[contains(@class,'shop-review-wrap')]/div/h3/a/text()创建时间,需要进一步字符串处理后得到时间//div[contains(@class,'block raw-block')]/ul/li[1]/span区域名称,同样文本需要处理//div[@class='breadcrumb']/b[1]/a/span/text()发现新URLURL的发现规则不是必须配置的,但是配置之后,可以大大提高爬虫的速率。对于大众点评这样规整的列表页+详情页,配置好列表页的url规则和详情页的url规则,爬虫的目标就很明确,爬取速率杠杠的。一般这种规则用正则来表示,对于这里的爬虫,列表页规则为\\d+/0_.*详情页规则为\\d+/editmember另外,大众点评限制了IP的访问频率,这里可以把降低爬取速率,或是使用代理。如果你使用的是神箭手云爬虫,则代码如下configs.enableProxy =自己写爬虫的同学,请自行Google代理IP,此处不再赘述。用爬取的数据配置出图表折腾出了这么多代码,约摸着看到这的都是真爱了,那么赶紧看看我们的成果吧:总共爬取到14000多条数据,现在就以这些数据作为样本来分析(下面涉及到的图表的设置,都是在神箭手云平台上操作完成的)。1. 黄焖鸡米饭的整体增长像原文里的分析一样,以季度为单位,作出2012年至2016年,黄焖鸡米饭的门店数随时间的增长情况。先看下出来的图:上图中,柱形绘制的是各个季度门店的新增数,折线绘制的是截止到某个季度的总门店数。对于柱形图/折线图,首先设置X轴和Y轴。Y轴比较简单,就是门店数,值类型是value,一个Y轴就可以了,不需要第二个Y轴;X轴是按季度划分的,值类型是category,需要在爬取结果的create_time字段上作区间划分,这里展示的"新增"和"总店数"两个数据,它们的统计区间是不一样的,"新增"统计的是create_time落在某个季度的门店数,而"总店数"统计的是create_time在某个季度之前的门店数,所以这里的区间划分需要定义两个。X轴和Y轴定义好之后,开始定义数据。新增数展示为柱形图。X轴的字段选择create_time,在create_time上划分区间,这里通过简单的字符串比较就可以划分出季度区间,比如"2013-Q2",定义它的最小值为"",最大值为""。Y轴只需要对划分出的区间作count操作就可以,所以配置Y轴字段为'*',操作选择计数。总店数展示为折线图。总店数跟新增数唯一的区别就是区间划分,比如"2013-Q2",只定义它的最大值为""就好了。下图为部分设置界面。配置完成后保存,就可以查看生成的图表了。2. 分区域分析黄焖鸡米饭的增长逐年观察各个省份黄焖鸡米饭门店数的增长情况,时间维度体现在多张图上,省份的数据通过中国地图的着色深浅来表示。先看效果图:图表类型为中国地图,配置也比较简单。首先在create_time上添加过滤条件来配置年份,比如要配置2014年的地图,添加过滤条件,字段选择create_time,设置最大值为"";配置区域字段为province_name,数据还是计数操作,选择字段为'*',操作为count。这样就会筛选出2014年底黄焖鸡米饭的门店,并以省为单位,分别统计门店个数。最后设置图例,不同门店数用不同的颜色填充,就可以作出上面的系列图。图表类型为中国地图,配置也比较简单。首先在create_time上添加过滤条件来配置年份,比如要配置2014年的地图,添加过滤条件,字段选择create_time,设置最大值为"";配置区域字段为province_name,数据还是计数操作,选择字段为'*',操作为count。这样就会筛选出2014年底黄焖鸡米饭的门店,并以省为单位,分别统计门店个数。最后设置图例,不同门店数用不同的颜色填充,就可以作出上面的系列图。大功告成,一碗热腾腾的黄焖鸡米饭就可以上桌了,如果想搞什么大盘鸡,小盘鸡,红烧肉,KTV啥的的,相信你都已经不在话下了吧。如果想要完整代码的,请直接私信我,为了降低这篇软文的广告密度,在这里就不贴了。--------------------------------------一觉醒来决定还是贴个源码链接吧----------------------------------
看到爬虫,就马上点进来看看了……最近软件工程课程的其中一个项目就是做爬虫?图书馆信息管理,当然了难度也就。。。不过,做的时候还是很费力的。。。不过,我的项目不是这个。。。科科
年初,上海房价暴涨,亲历了一天跳价几十万的怪现象,也敦促俺爬取了几十万条数据,做了一份上海房价数据报告。 先贴一下报告的地址哈 谢谢大家的关注,FAQ更新: 1.可视化是在公司做的组件,基于leaflet + konva.js 可以交互,不过并没有开源2.爬虫相关的技术,知乎上很多,我也搜集了一些,之后可以继续更新一下。)未来更多的资料我会在git上更新 3.mission、task这些都是自己对结构的理解,不为准,应该有更通用的命名。首先是技术选型,大家比较喜欢用python或java,社区成熟,资源甚多,但我平时在工作中用nodejs,就编写了一个自用的框架。和成熟框架比,可能有很多不足,但造轮子让自己对整个过程有更多理解:首先是task,task是一个小任务,即处理一类url并存入若干DB.首先是task,task是一个小任务,即处理一类url并存入若干DB.第一部是生成一堆URL,有很多可能,比如根据网址自拟规则,比如某个网址 , 猜测
也是有的,总结出一个『通项公式』,通过程序自动生成一堆网址,最后一一访问,也如从一个网址开始广度优先地开始搜索,爬出一堆合理的网址,还如从别的任务导入url列表然后进行并发的请求,中间的各种小问题,诸多帖子都说过,比如如何防止ip被封,有时候修改http头,有时候发一组,停一下,之间设置timeout,实在不行用ip池,最后存入若干DB。mission是比task更大的单位,比如一个小区的信息需要2个高德的接口清洗,然后在做个xx事情,可以分为5个task逐一完成。对于一个机器,一天可能要串行好几个mission。然后就是选网站了。 有许多房价网站,有些乱的就像论坛,信息杂糅,也有些虚假繁荣,重复率很高,比如一套房子都能出现好几次,还有很多已经关闭的交易仍然挂在网上,价格还是n年前的。
链家和搜房数据相对准确一些,但链家只做精做深一线城市,且早几年的数据不多,也没缺少租房数据(旧主页有丁丁租房的连接)。相比搜房网是历史久远的老牌网站,积淀多,但传说做低房价,数据不准,而且网站的组织比链家乱一些。 对于房子,宏观而言,至少分为2个大的对象,一是小区,二是房源。一个小区有很多户型,高低、面积、户型、类型甚至年代各不相同,房源则涉及到具体的交易(当然复杂的情况下,一个房源在不同的时间能有多次交易)。每次交易有很多细节的信息,甚至细到最后一次看房的时间,一个月内看房的次数等等,但亲身经历告诉我,这些很细的指标有时也少登记漏登记,准性没那么高。
细的也不多谈了,总之经过多次爬取或清洗,我的数据库里存了几张表,比如链家网的表有两张:
小区表: 小区名字,经纬度,边界信息,建成年代,物业公司,开发商,绿化率,容积率,楼房数,房间数,12个月的房价变化等。
交易表: 所属小区,总价,均价,面积,户型,楼层,房龄,装修,七天里多少人看过,历史上度少人看过,已经完成 & 历史上交易时间等。
提前说一嘴,链家和搜房的数据是有所滞后的,正在交易的房子,很多已是过去的价格了,而已成交的房子,成交的时间要倒退几个月才是发生交易的价格,何况为了避税,很多人在签署交易价格的时候会做低房价。欢迎大家在这里看详细的分析
这个也算吧
虽然原理简单
不过非常装逼
因为前阵子组里面要用python 做一个小项目。。就开始自学Python,据很多前辈说 学python 入门的话。很适合做一个爬虫项目。于是就想着。。自己也做一个 知乎好友关系的爬虫 就和以前人人网的好友关系很像的那种用的的库有beautifulsoup/matplotlib/requests 之类的常见的爬虫库 相关的教程 网上一搜很多,可以自己去看 ,正题 基于我的好友数据 我做了下面几个数据呈现:1.好友性别比例分布男女比大概2比1 。。好吧。。不是我基。。我看过一个人做的爬虫。。知乎大概的性别比就是这样子(认真脸)2.好友职业分布Top5我就姑且把互联网 高新科技 计算机软件都归结为程序狗好了。关注我的人里面程序狗竟然占了差不多85%。我感觉我的主页是不是大写的一个我是程序员 快来关注我啊。。哈哈哈哈哈~3.好友地域分布Top5鉴于大部分人呢都没有填写地区。。所以。。结果不是很准。。但为嘛没有深圳杭州的程序狗关注我。。大写的一个不开心!4.关注我的好友里面大V排名Top5感觉小透明能被关注。。也是很开心。。5.好友互动排名Top3因为关注我的好友里面数据太少(关注我不点赞感谢干嘛。。生气脸) 所以只选了前三。哈哈。。都是真爱么么哒。。这里面的friend index=互相点赞数+互相感谢数代码的话。可以看 虽然写的很烂。。求轻拍(认真脸)
我们岂安科技的程序员盆友听说煎蛋上有好多可爱的妹子,而且爬虫从妹子图抓起练手最好,毕竟动力大嘛。于是开启手把手教你用Python爬虫煎蛋妹纸海量图片→准备作案工具只准备最简单的python 2.7.11Google Chrome安装的时候记得把pip带上,这样可以方便我们安装一些好用的包,来方便我们干坏事(学习)的过程。需要用到的包包括更佳符合人类的HTTP库--requests用来解析html文件,快速提取我们需要的内容--beautifulsoup4也可以用下面的命令快速安装pip install requestspip install beautifulsoup4首先,我们需要定位我们需要的图片根据我们之前的准备的作案工具,使用chrome来访问网页然后打开开发者工具菜单 -& 更多工具 -& 开发者工具看下图右边的神器点击这个图标会出现块选择器,鼠标移动我们感兴趣的部分按照图片指示点击区域右边神器中就会出现我们所需要的img标签查看之前最后一个以#comments开头的标签, 它包含了所有img的子标签。打开cmd或者终端输入python输入以下神秘代码import requests
from bs4 import BeautifulSoup
res = requests.get('http://jandan.net/ooxx')
html = BeautifulSoup(res.text)
for index, each in enumerate(html.select('#comments img')):
with open('{}.jpg'.format(index), 'wb') as jpg:
jpg.write(requests.get(each.attrs['src'], stream=True).content)
现在偷偷看一下你的当前目录是不是有很多(污)的图片
大神好多,好聪明,求勾搭,我最喜欢学术学霸男了
找工作的时候爬一下招聘网站,大致上就可以了解一下目前所在地区的招聘情况,也更有针对性的去投简历
最近在找工作,但投出的简历如同石沉大海,也许是自己还不够优秀没能通过初筛,又或是简历没法突出自己的优势。今天突然想了解一下心仪企业的招聘情况,于是就有了以下的项目。在开始之前先要感谢以下这篇文章的作者,在网站上分享了一个python3可用的定向小爬虫。自己还是一个爬虫的入门者,正因为有了他们的付出我才能节省下碰壁的时间去尽快实现想法。对源码的修改
如上所述,我是直接拿现成的python代码来使用,但那篇文章作者的代码有部分字段是舍弃了的,所以需要修改一下为我所用。修改url的目标城市这里只需要修改"city="后面的部分就可以,提供一个简单的方法就是用chrome或者firefox打开拉勾,按f12进入开发者工具,点击Network菜单下的XHR(演示的是chrome)
点选你要了解的城市,如“珠海”,点击搜索后应该会出来四个文件,我们要的是postitionAjax.json这个文件,点击打开后会看到Request URL的字样,后面部分就是我需要的城市的转码了。修改我所需的字段原来的代码中只是根据作者的需要保留着以下字段,但我想了解的不止这部分的内容,于是继续向json传过来的数据下手将json的数据用格式化校验工具整理一下之后发现几个感兴趣的字段这两个分别对应的是职位发布的时间跟职位的职能分类,加上自己需要的类型之后就可以下一步的修改了更改文件保存路径为了省事我改成了项目文件夹的根目录,而不是原来的桌面路径,也可以根据需要另外设定目录去掉输入类型的提示代码本身是为了了解不同编程语言的信息,而我主要是想了解总体的状况,因此这一部分我并不需要每次变更,于是改成了关键字为空,这样提交过去则是搜索全部的招聘信息开始抓取
程序运行部分没有太大的问题,顺利运行后会抓取到30页的招聘信息并且保存成excel的文档,打开会有错误的提示,但是继续点击后会发现数据是有的。需要注意的是拉勾做了限制,只能看30页的信息,所以在发布量比较大的城市如果想要获取完整的信息的话需要再对源码做修改,如增加定时执行之类,我这里不作展开。原始数据的处理
到手的数据是这样的,主要是将时间部分做格式化,将多份excel表格合并去重,最后共获得共105个企业发布的523个岗位招聘信息数据分析
数据起止时间分布为 9:45:49 -
18:27:54,由于时间跨度不长,所得的结论仅供参考
看来HR们都主要集中在周二、周三、周五发招聘信息(大概周一都要开会?周四约人面试吗?)
至于发布时间则主要集中于早上上班的9-12点以及下午的15-16点,还有部分敬业的hr们晚上9点多还在发信息(真是辛苦了)
在这523个岗位需求中,技术类的岗位需求比其他所有类型岗位需求的总和还多,所以在珠海技术类工种还是很大的需求缺口
在这523个岗位需求中,技术类的岗位需求比其他所有类型岗位需求的总和还多,所以在珠海技术类工种还是很大的需求缺口
大家都很关心的薪酬方面,产品的平均起薪达到了10k左右,而运营类岗位只有一半,与市场销售等岗位持平
105个企业中,初创型的企业接近6成,说明机会还是很多的
果然,初创型公司的招聘需求占据了半壁江山(汪半壁作何感想?)
公司的成长阶段对职位需求类型的变化,可以看到随着企业成长,对技术的需求会越来越高,相对的对市场及销售、运营等职能的岗位需求则降低,开来此时企业更注重提高自身产品的竞争力
除去上市公司,剩余87个企业,其中59个初创型企业中,约一半未融资;而到了成长型企业中则有一半是不需要融资的,大概是有了稳定的盈利模式以后融资则显得不是那么重要了
企业的职位诱惑前十位,带薪年假占据了福利榜首(这算哪门子诱惑— —|||)
发布招聘需求前10位的企业,果然我心仪的大魅族是招聘大户
运营类的招聘前十位,看来YY对运营的需求比较大
再看看魅族的招聘,HR们的发布也似乎没有很特别的规律
还是以技术类岗位的需求还是远超其他类型的总和,运营的岗位只有一个QAQ-------------------------------------------------------------------------------------------------------------------------
至于岗位的细分我没有继续做下去,因为这周发布的运营岗并不是自己能力所能匹配的,因此最后的结论是,做了大环境的分析,清晰了现状,后续部分因为技术原因卡壳了,最终似乎并没有对自己求职帮上很大的忙。T^T
在后续针对单个企业的爬虫中,我定位到了单个企业的招聘信息都是由searchPosition.json返回的,但是按照参考文章的代码去改后,请求地址却返回错误。由于爬虫方面自己还是入门很多都不懂,目前还在研究中,如果研究到了我还会继续分析下去的。ps.知乎不支持markdown好蛋疼
爬知乎,爬知乎,还是爬知乎,呼呼呼。
请把youtube的链接放一下,我也想学,谢谢!
Update:谢谢安雅和Darling琳的提醒:苏莉安和飞鸟冰河都是男的。。。。因为他们个人资料里填写的都是女的,已经修改并更新了女神top15.写这个回答的时候,刚刚从被知乎反作弊系统的封杀中自救出来:现在慢慢来说这个一发不可收拾的过程:清明节放假回来的第一周,感冒了(可能因为放假只顾着玩,忘了祖上了),到了周末的时候还变严重了,鼻涕流个不停,只能在家休息,躺在床上刷知乎的时候,看到
的签名“与食巨近,贱多食广”感觉很有意思,当时突发奇想:是不是所有大V的签名都这样blingbling.那就都翻出来看看,但是一个个去他们资料里看很不现实,首先那么多用户有多少大V,大V又都在哪里,其次一个个去翻他们主页,太累了。那怎么办?也不认识在知乎工作的小伙伴,一直听说爬虫可以爬取网页内容,正好可以试试,那就自己动手写个爬虫(暴漏职业了)抓取用户主页的信息,然后存到数据库,这样就可以一目十行的看了。下面是一些技术过程,不感兴趣的可以直接跳到分析那一块:学习了python的模拟登陆、http头信息处理、cookies保存设置等内容后,在自己的主页上面试了一下,顺利的抓取了姓名、公司、职位、签名等信息,但是抓取关注的人时,只能抓到20条数据,先说一下为什么要抓取关注的人,我设想的是从一个大V开始,抓取他关注的人,然后再抓取这些人关注的人,这样循环下去,应该能保证抓取的都是大V级的用户。为什么只能抓到20条数据,仔细看了一下网页,默认只显示20条关注者的信息,下面有个加载更多的按钮,点击了才可以获取更多的数据。然后截取了点击按钮时的请求地址和需要的参数,获取这些信息后,麻烦也来了,需要的参数里面有一个叫hash_id(后来发现这个参数应该是每个用户的唯一标识)的字段,但是搜索了所有的相关页面、截取了从登陆开始的所有相应内容都没有发现hash_id,当时我就崩溃了,这个事做不下去了。放了半天,又感觉很不甘心,不可能无缘无故冒出来个数据,突然灵机一动,是不是数据带过来的时候不叫hash_id,马上复制了hash_id对应的内容去搜索,发现果然是这样的,hash_id的值是通过current_people带过来的,此处省略一万字........后面进行的就很顺利了,为了保证爬取的质量,第一次爬取的时候限制了获得赞数大于10万,可是一会就爬完了,在分析最终十万条数据之前,我以为知乎上各个都是高手,10万赞应该小case,这才发现金字塔尖原来就那么几个人。然后又把门槛改为了1万赞,没过半天也爬完了,后来又改为,最后是100。因为100这个门槛比较低了,所以并没有爬完,凑够了10万条数据就停止了,最终爬了100309条数据:分析篇:这份数据1000赞以上的用户应该基本上都包括了,数据有效性截止到4月14号,拿到数据后第一件事,当然是看看谁是第一名,和之前感觉的一样:
张公子200多万赞,但是第二名
和第一名差了100万赞:然后分析了一下男女比例(没有填写性别的用户很少,基本上可以忽略),大约为男:女=2:1:按赞排列的top10 魅力男神,看看你错过了谁: 女神的放最后压轴了,哈哈。。。。。女神的放最后压轴了,哈哈。。。。。然后看看知乎的金字塔是怎样的,这也是按照获得赞数进行统计的。哎.....原来在知乎,大部分人和我一样普通:大于10万赞的只有257人,如果你能获得1万赞就跻身4000精英中了!最初的目的是为了看个性签名,有意思的很多,但大部分都不记得了,就一个比较感兴趣:
这是个什么组织?还吸纳人吗?有什么入会条件吗?有了这份数据还可以勾搭各行业的牛人,随便截了个北京互联网公司的图:其他各种分析就不一一贴出来了,最后说说为什么知乎反作弊系统把我屏蔽了。玩私信的时候,看到知乎私信可以随便发,不管是不是关注了对方,知乎也有设置“只允许我关注的人给我发私信”的功能:但是我相信大部分人都没有设置。那是不是可以给这十万个人群发一条私信呢?因为在爬用户数据的时候,没有遇到屏蔽,那发私信也应该不会有屏蔽的,截取了发私信的请求和需要的参数,里面有个参数member_id,推测一下这个和上面抓取的hash_id应该是同一个值,试了一下果然是,那就可以行动了。考虑到不可预料的后期风险,还特意申请了一个新号,也就是这个号:但是我相信大部分人都没有设置。那是不是可以给这十万个人群发一条私信呢?因为在爬用户数据的时候,没有遇到屏蔽,那发私信也应该不会有屏蔽的,截取了发私信的请求和需要的参数,里面有个参数member_id,推测一下这个和上面抓取的hash_id应该是同一个值,试了一下果然是,那就可以行动了。考虑到不可预料的后期风险,还特意申请了一个新号,也就是这个号:名字是前两天看的韩国黑帮电影《向日葵》,签名是笑傲江湖2之东方不败的经典台词。还有一个很重要的事就是发什么内容,想了半天也没想到合适的。刷微博的时候,看到著名知友王豖、釆铜、和芈十四最近出了新书,那就帮他们推荐一下吧,为了不让广告贴很讨人厌,特意琢磨了几句话:懂事之前,以为每段爱情都应该海枯石烂、至死不渝,可情动以后,渐渐发现并不是每个故事都有结局,生活并不只有爱情,于是学着精进,学着如何成为一个很厉害的人......上面几句话包含了著名知友芈十四、王豖、釆铜的新书名,大家一起来找茬啊!顺便公布一下答案:
的《不是每个故事都有结局》
《精进,如何成为一个很厉害的人》
《懂事之前,情动以后》。然后就开始行动了,但是这里犯了一个错误,没有把响应结果打印出来,只打印了发送请求的数量,跑了大概一个小时候后卡在了96286不动了:眼看马上就要胜利了。如果是程序出错了,停止5秒后会重新请求的。现在只能关了脚本去浏览器登上账户,首页很鲜明的就是开头那两个截图,被知乎反作弊系统给限制了,去私信里看了一下,实际只发送成功了7条数据,后来打印了一下响应信息,后面的都被服务器拒绝了,这个愿望以失败告终了......眼看马上就要胜利了。如果是程序出错了,停止5秒后会重新请求的。现在只能关了脚本去浏览器登上账户,首页很鲜明的就是开头那两个截图,被知乎反作弊系统给限制了,去私信里看了一下,实际只发送成功了7条数据,后来打印了一下响应信息,后面的都被服务器拒绝了,这个愿望以失败告终了......最后把按赞排列的top15知性女神贴出来,不要问为什么比男神多了5个,因为前10里面没有我女神: 最后的最后说一下,发这个回答之前,已经找到了反屏蔽的方法了,并且发了一百个用户都成功了,具体的方法就不说了,免得给知乎服务器带来不必要的压力: 最后的最后说一下,发这个回答之前,已经找到了反屏蔽的方法了,并且发了一百个用户都成功了,具体的方法就不说了,免得给知乎服务器带来不必要的压力:
某日,打开《什么值得买》,这是一个神奇的网站。偶然间,看到维多利亚的秘密、真人秀,等关键词,觉得貌似可以做点什么。于是,学下Python,撸了个单线程爬虫(很慢- -)。从撸好到现在,爬了:其中,含“真人”关键词的,有:我们按照点赞数、评论数排个序:然后,点开邪恶的 images 字段:嗯。。可以做点什么了。等数据全部爬完了,准备写个前端页面,方便浏览。另,用写了个简陋的日志监控:完。。完。。
看了这么多答案,自己也写了一个。我扒了部分在一场球赛期间发的推特,然后对其做了一些分析,生成了几张表格和图片。其实不算典型的爬虫程序,分析偏多,图一乐呵。我扒的是上周欧冠1/4决赛次回合,马竞踢巴萨的一场球。用tweepy实时下载了含有 #AtletiFCB标签的推特,从马德里时间七点左右开始一直扒到比赛结束十五分钟八点四十五左右,产生了八万多条推特。其实本来是想从比赛前十五分钟开始扒的,但是记错了时间,想起来的时候比赛已经开始十五分钟了。根据下载的推文,我首先根据发推时间做了一个折线图,单位是每分钟。蓝线是抓取的所有推特的走势,红线是推文里含有@ Atleti也就是@ 了马竞的发推趋势,紫线就是@了巴萨的推文的发推趋势。比赛结果是马竞踢了个2:0,淘汰了巴萨,格里兹曼分别在36分钟和88分钟进了两个球,也就是图中的19:21和20:28左右。看以看出来发推数量明显增多。19:30左右是半场结束,球迷也开始大量发推。一个小细节是20:31左右有一个突增的小趋势,那个时候伊涅斯塔造成了加比的手球而裁判没判。最后就是比赛结束后球迷大量发推。整体来看,马竞球迷在第一个进球之后一直保持着较高的兴奋度,平均发推数量也略高于巴萨球迷。比赛结果是马竞踢了个2:0,淘汰了巴萨,格里兹曼分别在36分钟和88分钟进了两个球,也就是图中的19:21和20:28左右。看以看出来发推数量明显增多。19:30左右是半场结束,球迷也开始大量发推。一个小细节是20:31左右有一个突增的小趋势,那个时候伊涅斯塔造成了加比的手球而裁判没判。最后就是比赛结束后球迷大量发推。整体来看,马竞球迷在第一个进球之后一直保持着较高的兴奋度,平均发推数量也略高于巴萨球迷。第二张图球迷所用语言前十位的比例饼图。最多的是es,西班牙语,达到了百分之四十,本来就是西甲球队的内战,再加上拉美的一众足球国家,这个比例可以理解。但是法语,fr,居然比英语还要多,多少有些令人费解。然后我就想看一下发推的地区分布,但是八万条推特里带定位的只有百数来条,多少能反映一些情况。最多的是es,西班牙语,达到了百分之四十,本来就是西甲球队的内战,再加上拉美的一众足球国家,这个比例可以理解。但是法语,fr,居然比英语还要多,多少有些令人费解。然后我就想看一下发推的地区分布,但是八万条推特里带定位的只有百数来条,多少能反映一些情况。然而,高傲的美帝并不爱球。然而,高傲的美帝并不爱球。然后我对推文做了一些分析,获取了一些词语,标签,@的出现频率。然后搜索了点赞最高和转发最高的饰条推特。首先是出现频率最高的前二十个单词。[('agg', 1127), ('Barcelona', 1103), ('game', 1074), ('Atletico', 1018), ('Messi', 996), ('?a', 976), ('Bar', 969), ('Barca', 931), (' ', 903), ('Iniesta', 813), ('I', 806), ('Atl', 731), ('box', 719), ('ético', 711), ('goal', 703), ('penalty', 688), ('half', 631), ('The', 618), (' ', 615), ('counter', 600)]
尽管我筛选的是英文推文并排除了一些常见介词,但是还是有一些西语词汇,还有俩表情上榜。上榜最多就是两家俱乐部的名字了,Barcelona, Atletico, Bar, Barca, Atl各种,其次就是一些足球术语和球员名字,像agg, penalty, goal, half, Messi, Iniesta.然后就是前二十的标签和提及:[('#AtletiFCB', 76970), ('#UCL', 23355), ('#AúpaAtleti', 14923), ('#FCBlive', 6836), ('#Atleti', 1940), ('#FCBLive', 1667), ('#GoAtleti', 1130), ('#ChampionsLeague', 732), ('#NuncaDejesDeCreer', 702), ('#LDC', 673), ('#Barcelona', 663), ('#Barca', 598), ('#ATMFCB', 556), ('#AupaAtleti', 552), ('#Griezmann', 524), ('#Champions', 444), ('#SLBFCB', 353), ('#TeamBarca', 341), ('#Atle', 331), ('#FCB', 301)]
[('@Atleti', 16847), ('@AntoGriezmann', 8116), ('@FCBarcelona', 7174), ('@WinamaxSport', 1860), ('@atletienglish', 1665), ('@3gerardpique', 1015), ('@FCBarcelona_es', 997), ('@saulniguez', 990), ('@Atletico_MD', 819), ('@9trollfootball', 752), ('@pictoline', 734), ('@infosportplus', 653), ('@Simeone', 646), ('@Nissan_ESP', 560), ('@fcbarcelona_fra', 518), ('@CarrascoY21', 511), ('@AngelCorrea32', 427), ('@btsportfootball', 410), ('@FCBarcelona_cat', 396), ('@nyl2pronos', 374)]
这些都能或多或少的反映出球赛的状况,像各种欧冠和俱乐部的标签,还有被提及较多的梅开二度的格里兹曼和马竞教练西蒙尼,再者还有各种球迷组织,体育平台。最后统计了被转发和点赞最多的十条推文,因为比赛刚结束就没再抓取,所以点赞数和转发数并不是特别多。人生赢家托雷斯光荣上榜,虽然上场吃了张红牌本场作壁上观。啊,也就是这个原因不用上场才有时间玩手机博关注,心机boy。人生赢家托雷斯光荣上榜,虽然上场吃了张红牌本场作壁上观。啊,也就是这个原因不用上场才有时间玩手机博关注,心机boy。好玩。没了。
python爬了国外一个网站的800多张图片,有点小清新:爬虫代码:爬虫代码:爬取结果:注:原网站每张图片都提供单独的下载链接,可以下载更加高清的图片,15美元的下载包包含1000多张额外的优质图片和定期的图片推送。感谢作者的无私分享,有经济条件的可以支持一下作者哦。
不酷,但比较有用。最近爱上了上张大妈,每天起床,午饭,睡前刷一刷,不亦乐乎。
但是,平时工作小忙,遇见一些便宜好货,晚刷一会儿去看就空了。
于是搞了一个小APP。
其原理很简单,就是爬虫,定期刷张大妈首页看看有没有更新。
如果有更新了,那就看这批更新的货物,有没有包含我设置的关键字,如果有,就给我发条PUSH通知,快去抢!
举个例子:
俺在APP里新加关键字:
发现更新里面,有表,就发通知给我。
我用手机收到了,赶快划开看看。
感觉自己的钱包又要更瘦了。
把这个APP起名叫张小弟
大妈和小弟的合影。
作为一个电影爱好者,伪设计师和对编程有些兴趣的人学了点爬虫当然是来抓取豆瓣top250电影的海报啦不过学得不多 被豆瓣发现是机器人了(颤抖吧人类) 所以有些图片有问题 也没有全部抓到。。不过学得不多 被豆瓣发现是机器人了(颤抖吧人类) 所以有些图片有问题 也没有全部抓到。。
前一阵子父母要来国外看我,于是乎就要考虑买机票的事情了。 然后就用scrapy写了个爬虫想看看机票的价格趋势。 基本上已经完成了,只不过因为爬阿里Trip很多都是动态的JavaScript,然后就用到了selenium来辅助。代码地址:
还有一个爬虫是爬了15年NASA NEO LEAF INDEX的数据,然后把所有数据转换成了netcdf格式 保存成gif图片。
链接: 欢迎大家提点建议啊。
很早之前就关注了这个话题,今天来答。其实我做的事情和很像,或许是每个程序员都有想过爬教务这种事情吧。不同的是,我并没有触及社交,定位暂时只是校内的工具。毕竟在现在国内这种大环境下做社交是一种很可笑的事情,或许以后会做,等想到微信什么做不到的旮旯再去做吧。所有的信息是在服务器上爬取的,服务器做中转站,以统一的接口返回给客户端。最初开始做打算是去年三月份,自己写个demo,然后四月份拉人组队一起做(iOS、Android和服务器)。中间考试各种拖拉直到去年十二月份才完成,本来打算上线,又因为一些不可抗拒因素拖延了很久,过两天终于终于终于要上线了。美工是我自己的做的....(=_=找个靠谱的美工好难啊.....)主页是这样的,流量是宿舍流量,余额是校园卡余额课表是这样的还有别的还可以查看校园卡消费记录等等(好像暴露了什么......)嗯,可以方便的向校园卡内圈存money当然还有一些别的一些乱七八糟的页面登录页面,用校内的netid就可以登录
没怎么刻意地学习爬虫,差不多半年前遇见了一个pornsite,其实是个付费porn论坛,其每一个帖子的付费部分都有这固定的格式,像是:下载链接:xxx下载链接:xxx下载链接:xxx下载链接:xxx密码:yyy我那时也就是在想怎么用linux里面的wget/curl等工具来实现那些压缩包的自动下载。但在下载之前我需要提纯帖子里面的关键信息,所以我就参照了一个遍历目录中文件夹的shell代码写了一个在指定板块里面遍历所有帖子链接的功能:for tid in `curl "" | grep -Eo xxx | grep -Eo xxx`; do xxxxxxxxxx然后对每一个帖子,用curl下载其内容,用for+grep获取下载链接,用grep获取密码。grep是以行工作的,可能需要将&br先变成\n再说。这个pornsite的下载链接使用了某非主流网盘,一个月会员好像是20来者(现在涨到了38),我就买了一个月。VIP下载页面里面的真·下载链接有着明显的特征,在某个标签里面藏着。文件大小也好提取,后面用于统计(比如我一次只下载10GB的内容,多了就停止脚本运行)。真·下载链接是一坨base64过的玩意,有时间限制,但可以用wget直接下载下来,不需要任何cookies。所有压缩包下载下来后就可以调用rar或者unzip或者其他工具进行自动解压,然后我通过一段加密压缩的shell函数将其重新打包成方便我一次性下下来的压缩包。然后我一边完善这个破脚本一边从这个破站上面下东西,250多页我差不多处理了100页。在此期间我还拖了一个全是俄罗斯妹纸的pornsite全站所有片子,打包出了1100多个平均1.5GB的压缩包。还有一个神奇的pornsite,直到我会员到期的最后一天才开始对它写脚本,等我开始拖时不到两个小时我的会员就停止了,至今都不知道是到期了还是被封了。之后我觉得有点无聊了,因为里面并没有啥好看的片子,论好看程度还不如知乎美人鱼。所以我tm的不干了。感觉这段时间所做之事并没啥卵用的样子。对了,我也想拿shell写一个抓取知乎美人鱼照片的脚本出来,毕竟本渣渣并不会用python。至于会参照别人的代码设置特征规则还是我自己摸索。。。算了我还是自己摸索吧。毕竟在写siterip script方面我也是身经百战了。两年前我想获得某个业界知名把妹达人的视频,我发现那个家伙跑了至少五个wp站,然后买了教程就能获得一个账号,我就写了一个php脚本遍历每个站的所有用户,然后拿用户名相同的密码尝试登录。结果是五个站点里面存在几个用户名和密码相同的用户,其中一个是管理员。然后高潮来了,后台发现他的站点都装了某款自动备份插件,然后备份用的网盘的登录凭据也给出了,登进去一看,除了发现那个老油条有二十几个站外,哇~他的教程我全都有了。然而还是并没有啥卵用,我照着他的教程学了两个月,还是没有什么短发眼镜妹,那坨英文教程我也卖不出去,并不会有人要(当然那家伙厚颜无耻地挂着599美元的价格是另外一个问题)。所以我就是喜欢做这种然并卵的事情呢。不过我倒是获得了一个额外的好处,那就是在协会周末交流的时候,我就给我的基友们展示在各种移动设备上面搭建*AMP+WP把妹教程站是一种怎样的体验,其中包括各种核的Android机、某双核Win8平板还有最近出的两代WIn10国产寨板等。好在我看到了这个问题,看了这一圈答案后,对爬虫重新提起了兴趣,感觉还是要提高自己的姿势水平。
每天爬取互联网相关的短新闻,然后早晨8、9点用微信图文的形式发出来~~就在刚刚弄的,4月1号上线,求关注~!
已有帐号?
无法登录?
社交帐号登录

我要回帖

更多关于 一件有趣的事情 的文章

 

随机推荐