郭相谅点评《女士品茶:统计学如何变革了科学和生活》

郭相谅点评女士品茶:统计学如何变革了科学和生活:一、统计学的底层逻辑是什么?20世纪以前,人们是按照“决定论”的想法来理解世界的,也就是说,一切自然现象的出现和存在,都是有原因的,并且遵循着一定的法则,人们坚信在理论上,我们

一、统计学的底层逻辑是什么?
20世纪以前,人们是按照“决定论”的想法来理解世界的,也就是说,一切自然现象的出现和存在,都是有原因的,并且遵循着一定的法则,人们坚信在理论上,我们可以掌握一切知识和规律,并且未来的一切事物都是可以准确预测的。统计和记录的数据越准确,预测就越精确。皮尔逊首先提出了实验数据的随机性和概率分布的概率,这一思想颠覆了当时人们认知世界的方式和实验研究的对象。人们开始认识到,万事万物不见得一定是因果关系,而是相互作用相互影响的相关关系,也逐渐接受了实验结果的随机性。后来费希尔又搭建了统计的整个理论框架和研究方法体系,后人也是在这个基础上不断完善发展这么学科的。
统计学就是基于问题,收集数据、分析数据、解读数据的学科,人们对统计学的接纳,同时也伴随着对“决定论”的抛弃。
二、统计学如何帮助我们处理复杂的数据?
统计学就是帮助我们利用样本的信息来推测总体情况的工具,也就是从局部到整体,从已知到未知的过程。根据不同的目的,可以划分为两大部分:
1.描述统计:为了分析现有的样本数据,处理样本数据的过程,通过对杂乱无章的原始数据进行整理,让这些数据能够直观简练的呈现出来,并作为我们认识事物的客观依据。针对的是已知的样本,是当下。比如:分析企业薪酬水平、某国的GDP数据。
“用户画像”概念本质上就是一种描述统计:首先根据需要选取关键的指标或者维度,然后收集各个维度的数据或相关信息,然后将这些信息整理,抽象出一个用户的信息全貌,贴标签。
2.推论统计:估计未知的总体情况,从样本到总体的过程,通过整理出来的样本数据信息来估计总体、预测未来。针对的是未知的总体,是未来。推论统计有两种思路:
(1)参数估计:直接从样本出发,利用样本计算出的数据来估计总体情况,分为点估计和区间估计两种。
(2)假设检验:从总体出发,先对总体情况提出一个假设,称之为“零假设”。然后通过实验收集数据,将收集到的数据跟这个零假设进行比较,看其差异大小。其思路和目标管理类似,限定目标,执行完后再看目标是否达成。科学研究就是一步一步地、小心翼翼地在试图推翻零假设的过程。
描述统计是基础,推论统计是目的,客观准确的描述为准确的推论提供了依据。
三、统计学在20世纪如何发展壮大,并快速席卷整个科学和我们的日常生活?
从人类文明出现以来,统计就已经存在了,statistic源于城邦state,可见统计学跟国家政治的渊源很深。但是统计学长期不受重视,发展很缓慢。统计学的高度发展从20世纪30年代开始,直接原因是战争。30年代,大批优秀的数学家逃亡美国,抑制了欧洲统计学的发展,而美国正在经历大萧条,迫切需要了解国家经济状况有多糟,推动了抽样调查的产生和发展,还逐步应用到政治民意测验领域。二战期间,大量统计学家开始参与到作战研究,发挥了重要作用,让统计学得到真正重视,其研究还影响了最终的战争决策,最终让美国向日本投放原子弹,直接影响了整个二战和人类发展的进程。在此后许多实验和统计分析方法,也得到了系统地梳理和完善。统计学成为各学科数据的研究基础,在经济学、社会学、心理学、流行病学、生物学领域都有重要应用。
到20世纪末,这场统计革命开始受到诸多挑战:
1.统计方法的过度应用:概率分布的观念已经深深渗透到现代科学教育中,很多科研工作者严格按照假设检验的思想去求证,只关心显着性,却很少去思考这种方法背后的思想内涵。标准的统计方法本身并不足以解决问题,需要关注问题本身,而非只是盯着数据。
2.新的学科和技术的出现,削弱了统计学的影响力。随着互联网的发展,总体数据可以轻易获得,是否还需要推论统计?经过反复论证的数学公式还有存在的意义吗?
3.现实是非常复杂的,人类构造的科学模型永远也无法完整的描述现实。某一阶段某一模型符合现有数据,但随着数据的积累,就需要对模型进行修改,以满足新的发现。
概率这种看不见摸不着的东西真的存在吗?我们认知世界的方式真的正确吗?如果无法确认,这场统计革命的基础就不牢靠,也许有一天,我们会发现这场统计革命不过只是人类认知历程中的又一次错误尝试。我们认知世界的方式,未来也许会再次因为某次革命而改变。