更新时间:作者:佚名
大家好,今天来为大家分享大数据分析与传统统计分析的区别的一些知识点,和的问题解析,大家要是都明白,那么可以忽略,如果不太清楚的话可以看看本篇文章,相信很大概率可以解决您的问题,接下来我们就一起来看看吧!
大数据分析与传统统计分析的区别:首先,数据分析不再采用抽样,而是采用全样本(n=all);其次,分析方法不再采用传统的假设检验。
1、统计方法:

基于一般统计方法的中值定理和大数定律表明,我们可以增加样本量并多次提取样本,以使结果更加准确。但得出这个结论的条件是所有样本的提取都满足i.i.d。 (独立同分布,即假设变量分布独立同分布),而这个假设在现实中很难满足。样本的选择很难做到完全随机。一般业务案例中采用的以数位为间隔选取样本的方法,不能满足统计意义上的随机要求,所得到的结果不可避免地存在误差。
同样,对于多大的样本才算足够大也存在争议。大数据可以直接利用全样本(总体)进行分析,消除这部分造成的误差。
2、分析方法:
传统的分析方法是对需要回答的问题做出一定的假设,比如教育背景对购买保险金额的影响,然后在基于这个假设抽取的样本上进行检验。检验假设的方法充满了实际数据无法满足的先决假设,例如最著名的正态分布。正态分布是一个很好的假设,因为它简化了计算,并且通过对数据的各种变形,基本上可以将其视为一定置信区间内的正态分布。
第三,假设检验的结果只能否定原假设,而不能得出完全支持的结论。
但大数据的情况就不同了。在分析大数据时,我们不需要对问题提出假设,而是利用算法来寻找变量之间的相关性。在上面的例子中,如果教育背景和保险购买金额两个变量之间的相关性很高(例如接近1),那么保险公司应该更加注重向教育背景较高的人销售保险。
大数据的应用可以说减少了人类在处理数据时带来的主观假设的影响,而完全依靠数据之间的相关性来阐述。由于消除了人为因素引入的误差,分析师的假设受到了限制(如果教育背景和保险购买金额相关,而分析师没有预料到,那么就不会分析出这个结论,这在实际案例中很容易出现)。大数据的核心在于它能够更充分地挖掘数据的全部真实含义。
原文链接:
https://www.zhihu.com/question/23273263/answer/90758820
推荐:
人工智能产业链联盟