千万条记录怎么选择数据挖掘模型

时间2023-06-07 03:33:01发布访客分类Python浏览329

导读：千万条记录怎么选择数据挖掘模型？可以先看一下数据缺失（missing）状况、（某些变量）的分布，然后看一下相关关系，最后建模。题主给出的条件比较少，只提供了数据量（记录数），尚未给出其他信息。但碰到一批新的数据时，（1）去除某些变量严重缺失...

千万条记录怎么选择数据挖掘模型？

可以先看一下数据缺失（missing）状况、（某些变量）的分布，然后看一下相关关系，最后建模。

题主给出的条件比较少，只提供了数据量（记录数），尚未给出其他信息。但碰到一批新的数据时，

（1）去除某些变量严重缺失的数据记录后，可以先看一下数据的分布状况，可以先看一下某几个感觉重要的变量的分布状况（频率分布图，或者Kernel density estimation），python 的pandas和seaborn （如seaborn.distplot()）都可以简单的实现。若想看一下数据整体的分布状况，可以通过PCA或MDS找到那些异常值（偏离大部分记录的数据点）。

（2）进行了简单的数据清洗与查看了大体分布后，可以定性的探究一下不同变量间的相关关系（可看做定性分析）。

seaborn.heatmap()

可简单实现，如下图。

(3) 进行了上述分析后，然后可以通过stepwise 线性回归或者广义可加性模型等“传统模型”建模，预测目标变量或者通过朴素贝叶斯，支持向量机，kNN等方法构建分类模型，若这些模型精度比较差，不能达到满意的效果，可以构建人工神经网络（简单的如多层感知器MLP）来进行建模。

上述三步为大体的挖掘步骤，清洗与分布-相关（定性）-建模（定量），且每一步都可生成若干个分析图表或报告。

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！

若转载请注明出处：千万条记录怎么选择数据挖掘模型
本文地址： https://pptw.com/jishu/64866.html

python中怎么删除空白目录 philosopher怎么记忆