首页后端开发Python千万条记录怎么选择数据挖掘模型

千万条记录怎么选择数据挖掘模型

时间2023-06-07 03:33:01发布访客分类Python浏览329
导读:千万条记录怎么选择数据挖掘模型?可以先看一下数据缺失(missing)状况、(某些变量)的分布,然后看一下相关关系,最后建模。题主给出的条件比较少,只提供了数据量(记录数),尚未给出其他信息。但碰到一批新的数据时,(1)去除某些变量严重缺失...

千万条记录怎么选择数据挖掘模型?

可以先看一下数据缺失(missing)状况、(某些变量)的分布,然后看一下相关关系,最后建模。

题主给出的条件比较少,只提供了数据量(记录数),尚未给出其他信息。但碰到一批新的数据时,

(1)去除某些变量严重缺失的数据记录后,可以先看一下数据的分布状况,可以先看一下某几个感觉重要的变量的分布状况(频率分布图,或者Kernel density estimation),python 的pandas和seaborn (如seaborn.distplot())都可以简单的实现。若想看一下数据整体的分布状况,可以通过PCA或MDS找到那些异常值(偏离大部分记录的数据点)。

(2)进行了简单的数据清洗与查看了大体分布后,可以定性的探究一下不同变量间的相关关系(可看做定性分析)。

seaborn.heatmap()

可简单实现, 如下图。

(3) 进行了上述分析后,然后可以通过stepwise 线性回归或者广义可加性模型等“传统模型”建模,预测目标变量或者通过朴素贝叶斯,支持向量机,kNN等方法构建分类模型,若这些模型精度比较差,不能达到满意的效果,可以构建人工神经网络(简单的如多层感知器MLP)来进行建模。

上述三步为大体的挖掘步骤,清洗与分布-相关(定性)-建模(定量),且每一步都可生成若干个分析图表或报告。

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!


若转载请注明出处: 千万条记录怎么选择数据挖掘模型
本文地址: https://pptw.com/jishu/64866.html
python中怎么删除空白目录 philosopher怎么记忆

游客 回复需填写必要信息