理解數據的中心:中位數及其計算公式
在統計學中,我們經常需要尋找一個值來代表數據集的「中心」。平均數(Mean)是最常見的選擇,但它容易受到極端值(異常值)的影響。而中位數(Median)則提供了一個更穩健的中心趨勢度量。它不受極端值的影響,因為它僅僅是排序后位於數據中央的值。本文將深入探討中位數計算公式及其在不同數據類型下的應用,幫助您全面掌握這一重要的統計概念。
什麼是中位數?—— 理解數據的「正中間」
中位數,顧名思義,是一個數據集經過排序(升序或降序)后處於最中間位置的數值。它將數據集一分為二,即有一半的數據點小於或等於它,另一半的數據點大於或等於它。這使得中位數在處理有偏態分佈或含有異常值的數據集時,比平均數更能準確地反映數據的典型值。
關鍵概念:中位數是數據集的「位置平均數」,而非「數值平均數」。它側重於數據點的排列順序和位置。
中位數計算的核心原則
無論數據是簡單的序列還是複雜的頻數分佈,計算中位數都遵循一個基本原則:首先對數據進行排序。接下來,根據數據點的總數(N)的奇偶性,確定中位數的位置。
- 數據排序:將所有數據點按照升序或降序排列。通常選擇升序排列。
- 確定數據總數(N):統計數據集中包含的數據點的總個數。
- 查找中位數位置:根據 N 的奇偶性,找到中位數所在的位置。
中位數計算公式(一):未分組數據
對於未分組的原始數據,中位數的計算相對直接。我們將根據數據點總數 N 的奇偶性來區分兩種情況。
情況1:數據點總數為奇數(N 為奇數)
當數據集中的數據點總數為奇數時,中位數就是排序后位於正中間的那個值。
- 中位數位置公式:
中位數位置 = (N + 1) / 2
這個公式直接給出了中位數在排序后的數據集中的索引位置。
示例:N 為奇數
假設我們有一組考試分數:75, 80, 60, 95, 70。
- 數據排序: 60, 70, 75, 80, 95
- 確定 N: N = 5
- 計算中位數位置: (5 + 1) / 2 = 3
- 查找中位數: 排序后的第三個值是 75。
所以,這組數據的中位數是 75。
情況2:數據點總數為偶數(N 為偶數)
當數據集中的數據點總數為偶數時,沒有一個單一的中間值。此時,中位數是排序后位於中間的兩個值的平均數。
- 中位數位置公式:
第一個中間值的位置 = N / 2
第二個中間值的位置 = (N / 2) + 1 - 中位數計算公式:
中位數 = (第 N/2 個值 + 第 (N/2) + 1 個值) / 2
示例:N 為偶數
假設我們有一組學生的身高(厘米):160, 175, 165, 180, 170, 155。
- 數據排序: 155, 160, 165, 170, 175, 180
- 確定 N: N = 6
- 計算中間值位置:
第一個中間值位置 = 6 / 2 = 3 (即第三個值)
第二個中間值位置 = (6 / 2) + 1 = 4 (即第四個值) - 查找中間值: 排序后的第三個值是 165,第四個值是 170。
- 計算中位數: (165 + 170) / 2 = 335 / 2 = 167.5。
所以,這組數據的中位數是 167.5 厘米。
中位數計算公式(二):分組數據(頻數分佈表)
當數據量非常大,或者原始數據無法獲取,只有以分組形式呈現的頻數分佈表時,中位數的計算會稍微複雜一些。此時,我們不能直接找到一個具體的數值,而是需要估算出中位數。
何時使用分組數據中位數公式?
當數據被整理成包含班級區間(Class Interval)和對應頻數(Frequency)的表格時,就需要使用此公式。這種情況下,我們首先要確定中位數所在的「中位數組」(Median Class),然後利用內插法進行計算。
中位數計算公式(針對分組數據)
這個公式用於從累積頻數分佈中估算中位數:
中位數 (Median) = L + [ (N/2 - Cf) / f ] * w
其中:
- L:中位數組的下限(Lower boundary of the median class)。中位數組是指累積頻數第一次達到或超過 N/2 的那個分組。
- N:數據的總頻數(總和)。
- Cf:中位數組之前所有組的累積頻數(Cumulative frequency of the class preceding the median class)。
- f:中位數組的頻數(Frequency of the median class)。
- w:中位數組的組距(Width of the median class)。即上限與下限之差。
計算步驟(分組數據)
- 計算總頻數 (N):將所有組的頻數相加,得到 N。
- 計算 N/2:找到中位數的大致位置,即總頻數的一半。
- 構造累積頻數列:在頻數分佈表中增加一列,計算每個組及其之前所有組的頻數之和。
- 確定中位數組:找到累積頻數第一次達到或超過 N/2 的那個分組。這個分組就是中位數組。
- 提取參數:從中位數組和其之前的組中提取 L、Cf、f、w 的值。
- 代入公式計算:將提取的參數代入中位數公式並進行計算。
實例演示:分組數據中位數計算
假設我們有某公司員工月收入(千元)的頻數分佈表:
| 收入區間 (千元) | 員工人數 (頻數 f) | 累積頻數 Cf |
| [3, 5) | 10 | 10 |
| [5, 7) | 25 | 35 |
| [7, 9) | 40 | 75 |
| [9, 11) | 15 | 90 |
| [11, 13) | 10 | 100 |
- 計算總頻數 (N): N = 10 + 25 + 40 + 15 + 10 = 100。
- 計算 N/2: N/2 = 100 / 2 = 50。
- 確定中位數組:
- [3, 5) 的累積頻數是 10
- [5, 7) 的累積頻數是 35
- [7, 9) 的累積頻數是 75
- 提取參數:
- L (中位數組下限) = 7
- Cf (中位數組之前組的累積頻數) = 35 (即 [5, 7) 組的累積頻數)
- f (中位數組的頻數) = 40
- w (中位數組的組距) = 9 - 7 = 2
- 代入公式計算:
中位數 = L + [ (N/2 - Cf) / f ] * w
中位數 = 7 + [ (50 - 35) / 40 ] * 2
中位數 = 7 + [ 15 / 40 ] * 2
中位數 = 7 + 0.375 * 2
中位數 = 7 + 0.75
中位數 = 7.75
所以,這些員工月收入的中位數約為 7.75 千元。
為何中位數如此重要?—— 它的優勢
中位數在許多情況下都是一個比平均數更優越的中心趨勢度量。其主要優勢在於:
抗異常值性
中位數不受極端值(異常值)的影響。無論數據集中有一個或多個非常大或非常小的數值,中位數的位置都不會發生顯著變化。這使得它在分析如房價、收入等容易出現極端值的數據時,能更真實地反映典型情況。
適用於偏態分佈
當數據分佈嚴重偏斜(即非對稱)時,平均數可能會被拉向偏斜的方向,從而無法很好地代表數據的中心。而中位數則能夠更好地表示偏態分佈數據的「典型」值。
適用於定序數據
中位數不僅適用於數值數據,也適用於定序數據(可以排序但不能進行加減運算的數據),如滿意度評分(非常不滿意、不滿意、一般、滿意、非常滿意)。
中位數與平均數、眾數對比
為了更好地理解中位數,將其與另外兩種常見的中心趨勢度量進行對比是很有幫助的:
- 平均數(Mean):所有數據點之和除以數據點的數量。受極端值影響大,適用於對稱分佈的數據。
- 眾數(Mode):數據集中出現次數最多的數值。可能不存在,也可能存在多個。適用於定性數據和發現最常見的類別。
- 中位數(Median):排序后位於中間的值。不受極端值影響,適用於偏態分佈或含有異常值的數據,以及定序數據。
選擇哪種度量取決於數據的性質和分析的目的。
結論
掌握中位數計算公式是數據分析和統計學的基本功。無論是處理簡單的未分組數據,還是複雜的頻數分佈表,了解其背後的原理和具體計算方法都至關重要。中位數作為一種穩健的中心趨勢度量,在許多實際應用中都能提供比平均數更具洞察力的信息,尤其是在面對異常值或偏態分佈的數據時。通過本文的詳細解釋和示例,相信您已經對中位數的計算有了全面而深入的理解。
常見問題(FAQ)
如何判斷何時使用中位數而非平均數?
通常情況下,當數據集中存在明顯的極端值(異常值)或者數據分佈呈現偏態(非對稱)時,建議使用中位數。例如,在分析家庭收入、房地產價格等容易出現少數極端高值或低值的數據時,中位數能更準確地反映「典型」情況,因為平均數會被這些極端值拉高或拉低,導致失真。
為何在計算中位數時需要先排序數據?
排序數據是計算中位數的首要且不可或缺的步驟,因為中位數的定義就是「排序后位於中間位置的數值」。如果不對數據進行排序,那麼找到的「中間值」將不具備任何統計意義,無法代表數據集的中心趨勢。
分組數據中位數公式中的各個字母代表什麼?
在分組數據中位數公式 `Median = L + [ (N/2 - Cf) / f ] * w` 中:
- L 代表中位數組的下限。
- N 代表數據的總頻數(數據點總數)。
- Cf 代表中位數組之前所有組的累積頻數。
- f 代表中位數組的頻數。
- w 代表中位數組的組距。
如何確定分組數據中的「中位數組」?
確定中位數組的關鍵在於計算累積頻數。首先計算總頻數 N,然後找到 N/2 的位置。在中位數組所在的累積頻數列表中,中位數組是第一個其累積頻數大於或等於 N/2 的分組。一旦找到這個組,就可以提取該組及其前面組的相應參數進行計算。
中位數在實際生活中N有哪些應用場景?
中位數在實際生活中有廣泛應用,例如:
- 收入分析:報告一個國家或地區的「中位數收入」,比平均收入更能反映大多數人的真實收入水平,因為高收入人群不會過度拉高平均值。
- 房地產市場:「中位數房價」是衡量一個地區房地產價格的重要指標,因為它排除了極端的豪宅或廉價房對平均價格的干擾。
- 教育統計:在衡量學生考試成績的「典型」水平時,中位數可以避免少數非常高分或非常低分的學生對整體平均成績的影響。
- 健康醫療:分析患者的康復時間、藥物反應時間等,中位數可以更好地反映大部分患者的情況。

