几何平均数的含义

背景

学习统计学的时候,教材告诉我们

描述计量资料集中趋势常用的统计学指标有:算数平均数、几何平均数、中位数、众数,这些指标也称为位置度量指标

在生物医学科研或临床研究中,计算样本的抗体滴度的平均值,所用计算方法一般是几何平均滴度

几何平均数这个概念,就在这个时候突然悄无声息地出现。为什么要以乘积后开根号这样的形式去定义一个平均数?翻遍数理统计,也没有发现它的任何出处。它就像一个幽灵一样,网络上描述它的来历的资料甚少,在教科书中又只有统计学能发现他的身影,想了解他的身世,一时却无从下手

好在通过网络上零星的一些线索,勉强可以拼凑出几何平均数的部分画像,下文将介绍我对几何均数的粗略理解

1. 几何均数的定义

在国内的教材中,几何均数(G)的定义一般为,将样本的n个观察值相乘的积,再开n次方根的结果,公式如下:

G=\sqrt[n]{X_1X_2...X_n}

而在一本国外教材的译本中(孙尚拱译《生物统计学基础(原书第五版)》),几何均数定义为,将样本n个观察值分别取对数后的算术均值,再取反对数,公式如下:

G=log^{-1}(\frac{1}{n} \sum_{i=1}^{n} logX_i)

此处的log^{-1}是取反对数的意思,log的反函数,即指数函数

2. 几何均数的意义

2.1 几何意义

我们在生活中常用的求平均值,通常是将样本所有数值相加,再除以样本个数。这种方式计算出来的平均值称为算术平均数,顾名思义,在数值上平均到所有样本

所以,通过几何平均数这个名字,我们大概可以猜到,是将数值在几何上平均到所有个体。何谓“在几何上平均”呢?

假设有一个边长分别为ab的长方形,容易算得他的面积为ab。如果以相等的面积画一个正方形,那么容易算得,这个正方形边长为\sqrt{ab}

chitchat-20230622-03.png

这个过程类似于,要求将这个长方形的两条边“平均”一下,但又要求面积不变,所“平均”出来一个的正方形。下图(图片来源于知乎)可以将上述过程推广至高维

推广至高维

由此我们可以了解到,国内对几何均数的定义,实际上是它的几何意义

2.2 统计学意义

既然在生物医学上,几何均数最常见的应用场景是计算抗体几何平均滴度,我们不妨从滴度入手,分析几何均数之于抗体滴度的意义

滴度为稀释度的倒数,这是百度百科对滴度的定义。如果我们将1ml血清样本稀释到1000ml(即稀释了1000倍,稀释度为1000),若此时某抗体恰好无法检出,则该份血清样本的某抗体滴度为1:1000

现在,假设我们在某实验中收获了一批血清某抗体的数据,如下表所示

chitchat-20230622-04.png

上述表格数据,为了计算方便,计算抗体滴度时,通常先用稀释度计算,最后再取倒数

如果是一般的计量资料,通常用算术均数作为样本集中趋势的统计学指标之一,但滴度数据使用算术均数并不能很好的反应样本的集中趋势。为了说明其中缘由,我们照常先计算算术均数,易得上述血清样本的算数平均稀释度为219.44,接着我们在Excel中画出稀释度-频数曲线,如下图

chitchat-20230622-05.png

由图像可以看出,样本的稀释度数据呈右偏态分布,且集中于160附近,与用算术均数计算得出的219.44相距甚远。这是因为,算术均数受样本极端值的影响较大。如上图,其尾部的数据跨度较大,对于算数均数来说无异于极端数据,故偏态分布的样本不宜使用算术均数描述其集中趋势

仔细观察数据不难发现,上述图像尾部数据跨度较大的原因,是因为稀释度数据为等比数据,上述列表中的稀释度可以表示成等比数列10×2^n,n∈Z,随着稀释次数n的增大,稀释度呈指数级增大

从另一个层面分析,如果以某一种方式将等比增长的稀释度转变为等差增长,使样本呈正态分布,就可以使用算术均数进行统计描述了。数学上常用取对数的方式,将一个等比增长(指数函数)的变量转变为等差增长(一元一次线性函数)的变量,原理如下

高中数学有如下对数运算公式:

\begin{equation} \begin{split} 指数&运算: \\&a^{\frac{m}{n} }=\sqrt[n]{X^m} \\ 对数&运算: \\&log \quad a^m = m·log \quad a \\&log(a·b) = log \quad a+log \quad b \end{split} \end{equation}

将上述稀释度的等比数列公式以10为底取对数,代入上述公式,有

\begin{equation} \begin{split} lg(10×2^n)&=lg10+lg2^n\\ &= 1+n·lg2 \end{split} \end{equation}

由上述公式易得,(n+1) - n = lg2,为一个常数,即稀释度取以10为底的对数后,变成等差数列

将上述样本稀释度数据的表格取对数,得到新表格

chitchat-20230622-08.png

同时画出稀释度对数-频数曲线,如下图

chitchat-20230622-09.png

可以看出,此时数据呈正态分布,可以使用算数均值描述集中趋势,如下公式所示

\begin{equation} \begin{split} \overline{lgX}&=\frac{1}{n} (lgX_1+lgX_2+...+lgX_n)\\ &=\frac{1}{n} \sum_{i=1}^{n} lgX_n\\ G&=lg^{-1}(\frac{1}{n} \sum_{i=1}^{n} lgX_n) \end{split} \end{equation}

注意此时计算算术均数使用的样本为稀释度取对数后的数值(lg稀释度),由公式算得lg稀释度的算术均值为2.07。对比上述公式与第1小节中提到的几何均数第二种定义

G=log^{-1}(\frac{1}{n} \sum_{i=1}^{n} logX_i)

将上述lg稀释度的算数均值,再取反对数,就是稀释度的几何均值,恰好就是几何均值公式的最后一步,经计算,结果为117.58,即血清的几何平均稀释度。为验算,再用n个观察值相乘的积,再开n次方根的公式

G=\sqrt[n]{X_1X_2...X_n}

计算样本的几何平均稀释度,结果也是117.58;回顾稀释度-频数曲线

chitchat-20230622-05.png

可以确定,相比算术均值219.44,几何均值117.58能更准确地描述稀释度的集中趋势

综上,几何平均数的统计学意义:面对类似于抗体滴度这样的等比随机变量,变量的分布为右偏态分布,不适合用算数均值描述样本的集中趋势,此时宜用几何平均数

3. 公式推导

前文已经较为详细地阐述了几何均数的两种定义,及其对应的几何意义、统计学意义。目前还剩最后一个小问题:通过两种方式定义的几何平均数公式,二者之间是如何划等号的

我们需要用到的高中数学公式:

\begin{equation} \begin{split} 指数&运算: \\&a^{\frac{m}{n} }=\sqrt[n]{X^m} \\ 对数&运算: \\&log \quad a^m = m·log \quad a \\&log(a·b) = log \quad a+log \quad b \end{split} \end{equation}

推导过程如下:

\begin{equation} \begin{split} G&=\sqrt[n]{X_1X_2...X_n}\\ &= (X_1X_2...X_n)^{\frac{1}{n}}\\ logG&=log[(X_1X_2...X_n)^{\frac{1}{n}}]\\ &=\frac{1}{n}log(X_1X_2...X_n)\\ &=\frac{1}{n} \sum_{i=1}^{n} logX_i\\ G&=log^{-1}(\frac{1}{n} \sum_{i=1}^{n} logX_i) \end{split} \end{equation}

总结

在处理诸如血清抗体滴度、病毒滴度等指数增长的随机变量时,数据的范围相差了多个数量级,算数平均数受到极大值和极小值的影响难以准确描述该数据的中等水平

通过将随机变量取对数,可以得到一个更简单的等差数列,通过计算它的算数平均数,再进行对数转换,我们就能求得初始数据的几何平均数。几何平均数能较好的反应这类随机变量的集中趋势

消息盒子

# 暂无消息 #

只显示最新10条未读和已读信息