python如何爬取B站评论信息
python如何爬取B站评论信息?
这里简单介绍一下吧,B站的评论信息是动态加载的,存储在一个json文件中,只要抓包分析,提取到这个json文件,就能爬取到我们需要的评论信息,下面我简单介绍一下实现过程,实验环境win10+python3.6+pycharm5.0,主要内容如下:
这里为了更好的说明问题,以抓取B站https://www.bilibili.com/video/av1238716的评论信息为例(其他页面评论信息也行),如下:
1.首先,按F12调出开发者工具,依次点击“网络”-> “所有”,刷新页面,如下,所有的抓包信息便会显示出来:
仔细分析,我们就会发现reply这个文件比较大,而且还是json的,很可能就是评论信息,点击进去,果然,就是我们需要爬取的评论信息,如下:
2.接着,针对上面的json文件,我们就可以编写对应的代码来进行解析了,主要用到requests和json这2个包,requests主要用于根据url请求json文件,json主要用于解析json文件,提取出我们需要的信息,主要代码如下:
程序运行截图如下,已经成功爬取到评论信息:
3.最后,就是保存我们爬取的评论信息了,代码如下,很简单,主要用到xlwt这个包,专门用于写入数据到excel中:
程序运行截图如下,已经成功保存信息到excel中:
至此,我们就完成了利用python来爬取B站评论信息。总的来说,这个过程很简单,就是抓包分析获取到json,然后解析json提取出我们需要的数据就行,只要你有一定的python基础,会简单的抓包分析,熟悉一下相关示例和代码,很快就能掌握的,当然,你也可以使用scrapy框架来爬取数据,都可以,网上也有相关教程和资料,感兴趣的可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言。
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: python如何爬取B站评论信息
本文地址: https://pptw.com/jishu/59909.html
