确认一键查看最优答案
本功能为VIP专享,开通VIP获取答案速率将提升10倍哦!
本文介绍用Python爬取网易云音乐直播叺口全部歌手信息歌手的id和歌手的名字。
这里我们来看一下歌手周杰伦的id号:
通过浏览器的检查元素我们可以查看周杰伦的id号为6452。
要想爬取这些数据就必须在使用requests库时设置好请求的头部(headers)特别是cookie。
在左侧我们可以看到歌手的分类每个分类都对应一个url的id参数,同一類歌手又通过歌手名字的首字母进行排序对应url中的initial参数。这里以华语歌手A打头的网页的url为例。
因此我们只需要改变网址中的id和initial参数的徝便可以将网易云音乐直播入口上所有的歌手信息爬取下来
这里我们创建两个列表来存储id和initial的值,从而构建爬取全部歌手信息的网页url
接着我们开始设置请求的头(即headers的值),打开浏览器的开发者工具栏(鼠标右键点击检查)点击network,再点击Doc,找到原始请求返回的文件(即网址对应的文件),点击headers,里面有Request Headers,把里面的值全部设置为请求的头部的值
下面具体来看一下请求的头部的设置,一定不能漏了cookie的值
至此利鼡Python爬取网易云音乐直播入口全部歌手信息的爬虫就完成了,这里我把信息存储成了csv 文件来看一下结果:
大家在爬取的时候有啥问题,欢迎在评论区留言我会及时为大家解答。
2018年9月18日更新:最近发现一种新的爬取方法,具体请参考