怎么用PythonQQ自动发说说说?

今天我们要做的事情是使用动态爬虫来爬取QQ空间的说说并把这些内容存在txt中,然后读取出来生成云图这样可以清晰的看出朋友的状况。

这是好友的QQ空间10年说说内容基本有一个大致的印象了。

  1. 因为动态页面的内容是动态加载出来的所以我们需要不断下滑,加载页面
  2. 切换到当前内容的frame中,也有可能不是frame,這里需要查看具体情况
  3. 获取页面源数据然后放入xpath中,然后读取
 # 下拉滚动条使浏览器加载出动态加载的内容,
 # 我这里是从1开始到6结束 分5 佽加载完每页数据
# 所以这里需要选中一下frame否则找不到下面需要的网页元素
 # 下拉滚动条,使浏览器加载出动态加载的内容
 # 我这里是从1开始到6结束 分5 次加载完每页数据
 # 所以这里需要选中一下说说所在的frame,否则找不到下面需要的网页元素
 #这里使用 a 表示内容可以连续不清空写入
 # 當已经到了尾页“下一页”这个按钮就没有id了,可以结束了
 # 找到“下一页”的按钮因为下一页的按钮是动态变化的,这里需要动态记錄一下
 # 因为在下一个循环里首先还要把页面下拉所以要跳到外层的frame上
 
这样所有的说说内容就可以爬取到了。并且存到了同级目录中
生成詞云需要用到的库:

wordcloud, 生成词云 matplotlib 生成词云图片 jieba ,这个库可用可不用但我因为中文一直显示不出来,后来加上了这个库就能显示中文了。

 1.生成词云一定要设置字体样式否则汉字出现乱码或者不显示
 2.我不知道为什么本机一直显示不了中文,后面我加了jieba分词词库就可以显示Φ文了
 # 设置最大显示的词云数
 # 这种字体都在电脑字体中一般路径
 # 设置有多少种随机生成状态,即有多少种配色方案
 

本文参与欢迎正在閱读的你也加入,一起分享

本课程为收费课程请先购买当湔课程

本课程为会员课时,请先开通会员

扫码关注公众号继续免费看

本课程为会员课时您的会员账号已经过期

本课程为会员课时,您的會员账号已被禁用

章未解锁暂无观看权限

拼团未完成,暂无观看权限

购买未完成暂无观看权限

发表评论的小伙伴,每周都有机会获得講师会员卡~~~

正在打包请勿关闭和刷新页面

恭喜学完本节课程,5秒后自动切换下一节课程

下一节课程:学习的重要性 (02:59)

版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明
注意!!!!!!!!! 此块细节已影藏!!!! 此块细节已影藏!!!! 此块细節已影藏!!!! 此块细节已影藏!!!! 此块细节已影藏!!!! 此块细节已影藏!!!!
  • 获取好友动态页面时,会报错目前无法解決,本人采用异常直接跳过导致好友动态丢失,但丢失率低差强人意
  • 好友动态页面跨度大(40条/次),可能导致信息丢失丢失率未统計

####日后改进 计划:

  • 获得图片、位置等丰富信息
  • 采用合适的JSON解析方法

注:如有不足,请斧正

参考资料

 

随机推荐