一、前言

每当收集完一笔资料后,可能会非常零乱、複杂,很难看出该笔资料的特性,那我们又如何整理这些资料呢?常常会画图表示资料的分布情形,也会计算其平均数 (mean)、中位数 (median)、众数 (mode)…等来看该笔资料的中心位置,同时,还会计算全距 (range)、变异数 (variance)…等,来看该笔资料的分散程度,如此一来,资料收集者可以简单叙述该资料的特性,让有兴趣者可以快速了解,取得所需的资讯,而这类的数据分析可统称为叙述统计学 (Descriptive Statistics)。

今天我们要特别谈论变异数,变异数在高中课本里表示成:

\(\sigma^2=\displaystyle \sum_{i=i}^{N}\frac{(x_i-\mu)^2}{N}~~~~~~~~~(1.1)\)

其中 \(x_i\) 为各观测值(一共 \(N\) 个观测值,亦即族群中一共有 \(N\) 个观测值);\(\mu\)(读作mu)为族群平均数,可表示成:

\(\mu=\displaystyle\frac{1}{N}(x_1+x_2+\cdots+x_N)=\frac{1}{N}\sum_{i=1}^{N}x_i~~~~~~~~~(1.2)\)

上述所提及的变异数为母体变异数,事实上还有样本变异数,公式表示成:

\(s^2=\displaystyle\sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{n-1}~~~~~~~~~(1.3)\)

其中 \(x_i\) 为各观测值(共 \(n\) 个观测值);\(\bar{x}\) 为样本平均数。

\(\bar{x}=\displaystyle\frac{1}{n}(x_1+x_2+\cdots+x_n)=\frac{1}{n}\sum_{i=1}^{n}x_i~~~~~~~~~(1.4)\)

二、母体变异数v.s.样本变异数

大家或许会很疑惑,为什幺会有母体变异数与样本变异数呢?他们彼此间存在哪些差异呢?

往往我们欲关注的族群资料量很大甚至是无限大,而且族群的平均数(\(\mu\))实际上常常无法知道,为了减少调查成本与增加效率,常常会藉由抽样(sampling)取得样本资料,希望能藉由样本资料,获得样本平均数与样本变异数,利用样本平均数(\(\bar{x}\))来估计族群平均数(\(\mu\)),与利用样本变异数(\(s^2\))来估计母体变异数(\(\sigma^2\)),进而了解整个族群的状况(图一)。至于怎样才是好的抽样,才能準确估计族群,请详见其他章节,在此不加以着墨。

母体变异数v.s.样本变异数

图一 族群与样本的关係(本文作者吴博雅製)

而以样本资料求其变异数,称之样本变异数,又可称为均方(mean square),如式子1.3。

均方公式中在分子部分,我们称之为平方和(sum of squares),将每一个观测值与样本平均数之差予以平方再加总起来;均方在分母部分是 \(n-1\) 而不是 \(n\),其原因为如果以 \(n\) 取代 \(n-1\) 会造成当以样本变异数来估计母群体变异数时,会发生低估(underestimate)的现象注一,而这里的 \(n-1\) 在统计学上称之自由度(degree of freedom) 注二。在数理统计上可以证明以自由度作为除数所计算出来的均方,才是族群的无偏估值注三,亦即 \(s^2\) 才是 \(\sigma^2\) 的良好估值。

    注一:由于
    \(\begin{array}{ll}\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})^2&\displaystyle=\sum_{i=1}^{n}(x_i^2-2x_i\bar{x}+\bar{x}^2)=\sum_{i=1}^{n}x_i^2-n\bar{x}^2\\&=\displaystyle \sum_{i=1}^n(x_i-\mu)^2-n(\bar{x}-\mu)^2\end{array}\)
    \(\rightarrow\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})^2\le \sum_{i=1}^{n}(x_i-\mu)^2\)
    若以 \(\sum_{i=1}^{n}(x_i-\bar{x})^2/n\) 作为样本的变异数,由上式可知会发生低估的现象。注二:自由度是指样本内独立,且能够自由变动的离均差 \((x_i-\bar{x})\) 之个数。例如:样本中有四个观测值,样本平均为6,其中三个观测值为4、8与10,最后一个观测值一定是6*4-(4+8+10)=2。因此,当样本大小为4(=n)时,只有3(=n-1)个离均差可以自由变动,此时自由度等于3。注三:无偏估值的介绍,请详见另篇文章。

    而有时为了计算方便,我们也可以将样本变异数的公式表示成:

    \(\begin{array}{ll} s^2 &=\displaystyle \sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{n-1}\\&=\displaystyle \frac{1}{n-1}\times(\sum_{i=1}^n x_{i}^2-2\sum_{i=1}^nx_i\bar{x}+n\bar{x}^2)\\&=\displaystyle \frac{1}{n-1}\times(\sum_{i=1}^nx_i^2-n\bar{x}^2)\end{array}\)

    另外,母体变异数的正平方根,称之为母体标準差(\(\sigma\));样本变异数的正平方根,称之为样本标準差(\(s\))。

    例题:

    A研究员想要了解某一地区20-30岁的女性之体重,但他的时间、经费有限,所以他决定在该地去随机抽取12位20-30岁的女性,得知她们的体重55, 45, 60, 48, 43, 52, 48, 43, 50, 50, 48, 58(单位:kg),请问这12位学生体重的样本变异数为多少?

    \(\begin{array}{ll}\bar{x} &=\displaystyle\frac{1}{n}\times\sum_{i=1}^{n}x_i\\&=\displaystyle\frac{1}{12}(55+45+60+48+43+52+48+43+50+50+48+58)\\&=50 \end{array}\)

    \(\begin{array}{ll}s^2 &=\displaystyle\sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{n-1}=\frac{1}{12-1}(\sum_{i=1}^{12}x_i^2-12\bar{x}^2)\\&=\displaystyle\frac{1}{11}(30328-12\times 50^2)\\&=29.82 \end{array}\)


    参考文献

相关推荐