首页后端开发Python因为喜欢广州早茶,我抓取了点都德 100000 条大众点评评论

因为喜欢广州早茶,我抓取了点都德 100000 条大众点评评论

时间2023-10-19 02:17:03发布访客分类Python浏览615
导读:记得在北漂时,周围的同事都说北京是美食荒漠,比不得我的大长沙,我深以为然,我觉得甚至比不上我老家。南下广东时,大家都说广东人不喜吃辣,要知道,我可是地道湖南人,所以瞬间失去了广东美食的探索欲望。但是有一次从深圳到广州出差,在小蛮腰附近吃了一...

记得在北漂时,周围的同事都说北京是美食荒漠,比不得我的大长沙,我深以为然,我觉得甚至比不上我老家。

南下广东时,大家都说广东人不喜吃辣,要知道,我可是地道湖南人,所以瞬间失去了广东美食的探索欲望。

但是有一次从深圳到广州出差,在小蛮腰附近吃了一顿「点都德」,印象瞬间就反转了,这简直是人间绝味。

我觉得最好吃的是「百合酱蒸凤爪」、「金牌虾饺皇」和「金沙红米肠」,于是我向周围的朋友推荐。

他们不约而同地说吃过了,味道很一般,我当时心里全是问号,犹记得当时去顺德美食打卡时,我觉得顺德招牌鱼皮、牛杂一般时,他们觉得很好吃。

于是我转向了广大网友,抓取了大众点评广州点都德 6 个店铺 10w+ 条评论,字段包括评论内容、评论时间、大评分和小评分等等大概 10 个字段。

大家都说好吃,也有少部分网友和我那朋友一样给了差评,各种溢美之词就不看了,我主要关心差评点主要在哪些地方

差评也有好几千条,我总不能一条条看吧,公众号的一个口号是,所以能被 Python 取代的活,最终都将被 Python 取代。

我打算先用 Python 做下 LDA 主题分析,第一步就不太顺利。

第一步是确定最优主题数,也就是计算所谓的主题困惑度,在主题数相同时,困惑度越低越好。我首先计算了 n=0~20 时各自的主题困惑度。

n = 20 时,困惑度还没有完整下降,但是看上去快下降了,所以我加大了力度,使得 n 最大为 60,然后发现他只是虚晃一枪。

很曲折且令人困惑的困惑度曲线,我索性直接取主题数 20 ,做 LDA。

你看,大家给差评,相当一部分是说服务态度不好,并不是说味道不好。

再者,既然 LDA 无法确定最优主题数,那我可以考虑再用 BertTopic,说干就干,效果如下:

第一眼看上去,这并不像差评。

最后,我问了下 ChatGPT 关于点都德的评价,可笑的是,问其他品牌也是一样的,这家伙中庸之道拿捏住了。

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!


若转载请注明出处: 因为喜欢广州早茶,我抓取了点都德 100000 条大众点评评论
本文地址: https://pptw.com/jishu/500941.html
Beautifulsoup解析库使用实际案例 基于Python的机器学习工具包:Scikit-learn

游客 回复需填写必要信息