首页后端开发Python差值是什么意思

差值是什么意思

时间2023-06-03 06:34:02发布访客分类Python浏览1445
导读:差值是什么意思?差值的本意是两数相减后剩余的数值。略有不同地,这里的差值定义为「度量差异的值」。如何描述「差异」?极差级差指两极之差,即最大值和最小值相减后的值。值越小可以说明样本所有数据间的差异越小(紧密)。但是「值越大,所有数据之间的差...

差值是什么意思?

差值的本意是两数相减后剩余的数值。

略有不同地,这里的差值定义为「度量差异的值」。

如何描述「差异」?

极差

级差指两极之差,即最大值和最小值相减后的值。值越小可以说明样本所有数据间的差异越小(紧密)。但是「值越大,所有数据之间的差异越大」,就有可能说不通了,比如下面这个例子。由于极差仅仅保留了样本最值之间的差异,因此只能粗略地描述数据的变化范围。

最值差距明显而中间数据排列紧凑,极差并不能真实反映样本数据的差异。

四分位差

四分位差保留了上四分位(Q3,百分比排列 75% 位置上的数)与下四分位(Q1,百分比排列 25% 位置上的数)之间的差异,也称作四分位距(IQR)。IQR 计算的是极差最中间的部分,因此可以用来描述中间 50% 数据的差异程度——数值越大中间的数据越分散,越小则越紧密也越靠近中位数。相比极差而言,IQR 不容易受到极端值的影响。

离差

如果说极差总倾向掩盖数值间的真实差异,那么离差(deviation)便毫无保留地呈现了每个数值的差异。离差是观测值距离特定参照的差值,因而一定程度上反映了实际情况与我们预期之间的差异。这里的特定参照数据可以是预测值,也可以是均值、最值等。

方差、标准差

既然离差反映了各个数据与参照之间的差异,那么它的平均值就可用来反映所有数据的平均差异。由于离差可能出现负值,比如选定平均数作为参照时计算的「离均差」,加总离差值容易出现中和。为了避免这样的情况,很自然会想到对离差取绝对值或平方后再求和的做法。方差(Variance)便是这样一种方式计算而来的平均值。因为离差不尽相同,故将每个离差平方求和再取平均,「尽最大努力保证公平」地代表数据间的差异。

有时候方差数值非常大,为了方便衡量常常会开根号,这时称为标准差(Standard Deviation)。

以上类型的差值足以描述一组数据的组内差异,那对于两组数据,是否也有类似的数字呢?

平均绝对误差、均方误差、均方根误差

方差的计算启发我们,在离差不尽相同且可能存在负值的时候,可以采用「化负为正」和「平均化」的思想计算出当前数据的差异。在机器学习中经常要计算预测值和真实值之间的差异,这样的差异称为误差(Error)。误差是模型评估和优化的依据。下面简单列举回归问题中常见的几种误差:

- 平均绝对误差(MAE)利用绝对值将误差「化负为正」,最后求和取平均。

- 均方误差(MSE)利用平方将误差「化负为正」,最后求和取平均,相较于 MAE 要平滑。

- 均方根误差(RMSE)是 MSE 的开方值,实际含义与 MSE 一致。

协方差、相关系数

协方差(Covariance)数值上等于两组数据的离均差乘积的平均值。与方差不同的是,协方差考虑了两组数据的离均差,因此能够描述两组数据间的某种差异——当数值越小时,说明两组数据所呈现的变化趋势的差异就越明显。

同样为了方便衡量,将协方差与标准差乘积的比值构成相关系数(Correlation Coefficient)。

决定系数

决定系数(Coefficient of Determination)能够描述两组数据的相似程度,它的值根据公式1-MSE/方差计算而来。两组数据越接近,MSE就越低,由于方差固定,决定系数就会接近于 1(完全相同)。

如果数据呈现的是一种线性变化时,决定系数恰好等于相关系数的平方值,别名 R 方(R-square)可能就是这样来的。

如何量化「差异」?

从上面可以看出,离差的计算可能是最核心的 —— 方差、协方差、MAE、MSE都依赖于它;把观测值固定为最大值和 Q1,参照值设为最小值和 Q3 就可以计算极差和 IQR。下面我们且看如何用 Python 实现所有类型的差值。

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!


若转载请注明出处: 差值是什么意思
本文地址: https://pptw.com/jishu/59289.html
有5个人坐在一起 python数组轴个数rank怎么求

游客 回复需填写必要信息