因为喜欢广州早茶，我抓取了点都德 100000 条大众点评评论

时间2023-10-19 02:17:03发布访客分类Python浏览661

导读：记得在北漂时，周围的同事都说北京是美食荒漠，比不得我的大长沙，我深以为然，我觉得甚至比不上我老家。南下广东时，大家都说广东人不喜吃辣，要知道，我可是地道湖南人，所以瞬间失去了广东美食的探索欲望。但是有一次从深圳到广州出差，在小蛮腰附近吃了一...

记得在北漂时，周围的同事都说北京是美食荒漠，比不得我的大长沙，我深以为然，我觉得甚至比不上我老家。

南下广东时，大家都说广东人不喜吃辣，要知道，我可是地道湖南人，所以瞬间失去了广东美食的探索欲望。

但是有一次从深圳到广州出差，在小蛮腰附近吃了一顿「点都德」，印象瞬间就反转了，这简直是人间绝味。

我觉得最好吃的是「百合酱蒸凤爪」、「金牌虾饺皇」和「金沙红米肠」，于是我向周围的朋友推荐。

他们不约而同地说吃过了，味道很一般，我当时心里全是问号，犹记得当时去顺德美食打卡时，我觉得顺德招牌鱼皮、牛杂一般时，他们觉得很好吃。

于是我转向了广大网友，抓取了大众点评广州点都德 6 个店铺 10w+ 条评论，字段包括评论内容、评论时间、大评分和小评分等等大概 10 个字段。

大家都说好吃，也有少部分网友和我那朋友一样给了差评，各种溢美之词就不看了，我主要关心差评点主要在哪些地方。

差评也有好几千条，我总不能一条条看吧，公众号的一个口号是，所以能被 Python 取代的活，最终都将被 Python 取代。

我打算先用 Python 做下 LDA 主题分析，第一步就不太顺利。

第一步是确定最优主题数，也就是计算所谓的主题困惑度，在主题数相同时，困惑度越低越好。我首先计算了 n=0~20 时各自的主题困惑度。

n = 20 时，困惑度还没有完整下降，但是看上去快下降了，所以我加大了力度，使得 n 最大为 60，然后发现他只是虚晃一枪。

很曲折且令人困惑的困惑度曲线，我索性直接取主题数 20 ，做 LDA。

你看，大家给差评，相当一部分是说服务态度不好，并不是说味道不好。

再者，既然 LDA 无法确定最优主题数，那我可以考虑再用 BertTopic，说干就干，效果如下：

第一眼看上去，这并不像差评。

最后，我问了下 ChatGPT 关于点都德的评价，可笑的是，问其他品牌也是一样的，这家伙中庸之道拿捏住了。

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！