统计图

老板向我推荐了一本关于如何设计和创建统计图形的书。我想这里发布阅读笔记会很有意思。这本书是由Edward R.Tufte撰写的Visual Display of Quantitative Information。它包含数据图形的实践和理论。这一段讲述了什么好的统计图是什么,我们应该遵循什么原则,使图表更有信息量,同时看起来更加美观。

什么是好的统计图形?

一个统计图形来自数据。它应该显示数据,即使一些统计工具可能无法区分不同的数据集。 F.J.Anscombe的“统计分析”(Grpphs in Statistical Analysis)中的一个例子显示了四组数据\(X\)\(Y\) 它们具有相同的均值,方差和回归方程。更有趣的是,它们在回归分析中可能有相同的统计(包括\(t\)\(R^2\)等)。

然而,数据的图形显示容易区分数据。 另一方面统计图也可能是非常有误导性的。以下图表显示了太阳辐射如何与纽约和伦敦的股票价格相关。 (E.R.Dewey和E.F.Dakin,Cycles:The Science of Predection(New York,1947),P.144) 但其实我们知道这两者之间并没有什么关系。

作为一个简单的例子,时间序列图已被广泛用于了解数据随时间的变化。这些时间序列图更适合具有实际变异性的大数据集。简单的线性变化不应该显示在时间序列图中,因为它太简单了。一个很好的例子是1980年的纽约市天气图,如下 这个数字在相对较短的时间内成功地给了读者很多信息:

  • 每日高低温与长期平均水平相关。
  • 正常温度提供了一年中预期变化的预测。
  • 温度变化的季节性趋势也很容易显示。

从这个例子我们可以看到一个很好的统计图形应该是:

  • 精心设计的一个有意义的数据的介绍
  • 清晰,精确和高效率地传达复杂的想法
  • 在最短的时间内,用最少的“墨水“给看图的人最多的想法。
  • 但是首先,忠于数据

了解数据的真相

对于许多人来说,当他们考虑统计图表时,首先要想到的是“谎言”。很长一段时间以来,统计图形被看作是过分夸张的数字或工具来欺骗。这里有几个例子。

  • 这是一家着名的公司年度报告中基线消失的案例(日矿公司,1974年度报告)。我们可以看到,中间小组在1970年显示了一个亏损的情况,但在图中并不明显。这是通过让酒吧从底部开始大约-420万美元来伪装的.

  • 这个衰退趋势是假的,这是通过将1978年的六个月的付款与1976年和1977年的全年价值进行比较而创建的(纽约时报,1978年8月8日)

  • 有时人们常常忽略了数字数量级的存在:

我们应该记住,认知是非常主观的,这意味着不同的人对同一个对象会有不同的看法。一般我们遵循如下的原则来保证看图的人能认识到你想要传达的想法:

  • 数字的表示应与代表的数字成正比
  • 应使用清晰,详细和全面的标签。

一个极端的例子来自美国交通运输部的汽车油耗标准。它从1978年的每加仑18英里增长到1985年的27.5公里,标准和日期变化显示如图 图形只是给观众留下了一个印象:标准已经急剧增长。然而,这种情况并非如此。增长的幅度并没有图示的这么夸张。下面是一个简单的方法来较好地数据,传达较为准确的观念。 产生数据欺骗的原因是人们在图形上的一个地方产生的期望会被错误推断到其他地方。一个例子是从1901年到1974年(国家科学基金会,Sience指标,1974年)几个国家诺贝尔奖得主的数量。 数据显示,所有国家最右端都出现下降趋势。然而,事实是,水平尺度的前七段是十年获奖人数的变化,最右边的第八段是4年的。右图显示了1901 - 1980年的真实情况。这种数据欺骗是由于做图的人物没有好好设计造成的。为了解决这个问题,我们要遵循的的原则是显示数据变化,而不是变化图形设计

为了解释变化设计的概念,我们来看看一个纽约时报的石油价格图的例子 图形的详细测量显示,图中有五种不同的垂直尺度显示价格:

在这段时间 一个垂直的英寸等于
1973年-1978年 $ 8.00
1979年1月-3月 $ 4.73
1979年4月-6月 $ 4.37
1979年7月-9月 $ 4.16
1979年10月-12月 $ 3.92

而两个不同的水平尺度显示了时间的流逝:

在这段时间 一个水平英寸等于
1973年-1978年 3.8年
1979年 0.57年

这就是一个变化的图形设计。这一设计使得人们很难从图中看到数据真实的情况。

另一种重要的设计变化是使用二维区域来说明一维尺度的变化。我们病不清楚,我们如何看待二维图像,并将其转移到一个维度上来获得数量的印象。但这种用平面图形的面积来表达尺度变化的方法已被广泛使用,例如在1978年10月25日的“华盛顿邮报”中 但我们要知道这种图形给人的印象其实也是并不准确的。

上下文至关重要

这里的一个原则是统计图不能脱离上下文(对比)存在 以下显示了康涅狄格州的交通死亡事件随着时间的推移而改变。一条简单的线实际上没有什么信息量 而当图中包含更多数据时,我们对趋势的解释可能会有很大的不同。 甚至 随着对比对象的增加,图形展示的信息量也就愈发充分。因此我们在制作统计图时,要保证上下文的存在,让数据能够“tell a story”. 所谓的量化思维的核心问题就是:“与什么相比?”因此,添加更多的上下文将能更好地用图形反映亮化的信息。

总结

数据的统计图形应始终显示数据,而不是利用数据。良好的统计图形应该被精心设计并忠实地显示数据。我们讨论了在制作数据图形时应该遵循的几项原则。他们会导致更准确的数据感知而不是欺骗。在下面的帖子中,我们将重点关注数据图形的理论,以及如何在python中使用matplotlib进行绘图。