區別分析 SPSS 步驟:詳細解析與實操指南
在統計學中,區別分析(Discriminant Analysis)是一種強大的預測性分類技術,旨在尋找能夠最佳區分兩個或多個組別(群體)的變數組合。SPSS (Statistical Package for the Social Sciences) 作為一款廣泛使用的統計軟體,提供了直觀且強大的區別分析模組。本文將詳細闡述在 SPSS 中進行區別分析的步驟,並提供實操中的注意事項與常見問題解答。
什麼是區別分析?
區別分析的主要目標是:
- 識別區分不同群體的關鍵變數: 找出哪些自變數(預測變數)對群體成員身份的預測能力最強。
- 建立預測模型: 根據識別出的關鍵變數,建立一個模型來預測新的觀測值最可能屬於哪個群體。
- 評估模型的預測準確性: 衡量模型成功分類樣本的比例。
區別分析常應用於:
- 銀行根據客戶的財務狀況預測其是否會違約。
- 醫療領域根據患者的症狀預測其患有某種疾病的機率。
- 市場營銷中根據消費者的購買行為預測其屬於哪個細分市場。
SPSS 進行區別分析的詳細步驟
在 SPSS 中執行區別分析,通常遵循以下幾個關鍵步驟:
步驟一:準備數據
在開始分析之前,確保您的數據已經正確地載入到 SPSS 中。數據結構應包含:
- 群體變數(Group Variable): 該變數定義了您希望區分的各個群體。這個變數必須是名目尺度(Nominal)或順序尺度(Ordinal)的,並且具有明確的數值代碼來代表不同的群體(例如,1 代表群體 A,2 代表群體 B)。
- 預測變數(Predictor Variables): 這些是您認為可能影響或區分群體的變數。它們可以是區間尺度(Interval)或比例尺度(Ratio)的連續變數,也可以是名目尺度或順序尺度的類別變數(儘管連續變數在傳統區別分析中更為常見)。
注意: 確保您的群體變數已經被正確定義為類別變數(Categorical),並且 SPSS 能夠識別其類別。您可以在 SPSS 的「變數視圖」中檢查和修改變數類型。
步驟二:啟動區別分析程序
1. 在 SPSS 的菜單欄中,選擇 **「分析 (Analyze)」**。
2. 選擇 **「分類 (Classify)」**。
3. 選擇 **「區別分析 (Discriminant...)」**。
步驟三:設置群體變數和預測變數
在彈出的「區別分析」對話框中,您需要進行以下設置:
- 群體變數 (Group Variable): 將您定義的群體變數從左側的變數列表中移到「群體變數」欄位中。
- 指定群體 (Specify Range): 點擊「指定群體 (Specify Range)」按鈕。這一步非常重要,您需要告訴 SPSS 您的群體變數有哪些值代表不同的群體。例如,如果您有兩個群體,分別用 1 和 2 表示,則需要在「最小值 (Minimum)」輸入 1,在「最大值 (Maximum)」輸入 2。這樣 SPSS 才知道需要基於這兩個群體進行分析。
- 預測變數 (Independent(s)): 將所有您認為可能區分群體的預測變數從左側的變數列表中移到「預測變數」欄位中。
步驟四:選擇統計選項
點擊「統計量 (Statistics)」按鈕,進入「區別分析:統計量」對話框。在這裡,您可以選擇需要輸出的統計量:
- 分類診斷 (Classification diagnostics): 建議勾選此項,它會輸出分類矩陣(Confusion Matrix),用於評估模型的準確性。
- 集中效應 ( at the Group Centroid): 勾選此項可以查看每個群體在不同鑑別函數上的中心值。
- ANOVA (ANOVA): 勾選此項可以進行單因子變異數分析,檢驗預測變數在不同群體間的差異。
- F 值 (F values): 顯示預測變數的 F 值,用於判斷其在區分群體時的顯著性。
- 協方差矩陣 (Covariances for each group): 顯示各群體的協方差矩陣。
- 合併的協方差矩陣 (Pooled within-groups covariance matrix): 顯示合併後的協方差矩陣。
通常,勾選「分類診斷」、「ANOVA」、「F 值」和「集中效應」是比較常見的做法。
步驟五:選擇方法
點擊「方法 (Method)」按鈕,進入「區別分析:方法」對話框。在這裡,您可以選擇如何將預測變數逐步納入區別模型:
- 輸入所有變數 (Enter independents together): 這是最直接的方法,將所有指定的預測變數一次性納入模型。
- 移除 (Remove): 逐步移除對模型貢獻最小的變數。
- 逐步 (Stepwise): 逐步篩選出對模型貢獻最大的變數。常用的逐步方法有:
- 向後剔除 (Backward elimination): 先將所有變數放入模型,然後逐步剔除對模型貢獻最小的變數。
- 向前選擇 (Forward selection): 從沒有變數的模型開始,逐步加入對模型貢獻最大的變數。
- 向後/向前 (Backward/Forward): 結合了向後和向前的步驟。
對於初學者,建議使用 **「輸入所有變數 (Enter independents together)」** 或 **「向後剔除 (Backward elimination)」**。逐步法雖然能自動篩選變數,但有時可能會導致模型過於複雜或遺漏某些重要的變數。
步驟六:選擇繪圖選項(可選)
點擊「繪圖 (Plots)」按鈕,您可以選擇繪製相關圖表,例如:
- 散點圖矩陣 (Scatterplot matrix): 繪製預測變數之間的散點圖。
- 分類圖 (Classification plots): 視覺化模型的分類結果。
- 集中效應圖 (Centroids plots): 繪製各群體在鑑別函數上的中心位置。
這些圖表有助於直觀理解數據和模型結果。
步驟七:執行分析並解釋結果
完成以上設置後,點擊「確定 (OK)」按鈕執行分析。SPSS 會生成一系列輸出表格和圖表。
結果解讀要點:
- 群體統計量 (Group Statistics): 檢視每個群體在預測變數上的平均值、標準差等描述性統計量。
- 變數的 F 值 (Variables Unswarthed): 檢視單個預測變數在區分群體時的顯著性(ANOVA F 值)。F 值越大、p 值越小,表示該變數對區分群體越重要。
- 鑑別函數的統計量 (Eigenvalues): 顯示每個鑑別函數的特徵值,表示該函數在區分群體中的總解釋量。
- 標準化鑑別函數係數 (Standardized Canonical Discriminant Function Coefficients): 這些係數的絕對值大小反映了預測變數在該鑑別函數中的相對重要性。絕對值越大,該變數對該鑑別函數的貢獻越大。
- 結構矩陣 (Structure Matrix): 顯示預測變數與鑑別函數之間的皮爾遜相關係數。這有助於理解每個鑑別函數代表的「意義」或「維度」。
- 分類矩陣 (Classification Results / Confusion Matrix): 這是評估模型預測準確性的關鍵。它顯示了實際群體和模型預測群體之間的對應關係。對角線上的值表示正確分類的樣本數,非對角線上的值表示錯誤分類的樣本數。
- 準確率 (Percent Correctly Classified): 根據分類矩陣計算出的模型總體預測準確率。
常見問題 (FAQ)
Q1: 如何判斷模型是否有效?
判斷區別分析模型是否有效的關鍵在於 **分類矩陣 (Confusion Matrix)**。觀察「正確分類百分比 (Percent Correctly Classified)」。這個百分比應該顯著高於隨機分類的比例。例如,如果您的群體數量是 N,那麼隨機分類的準確率大約是 1/N。如果模型的準確率遠高於此,則說明模型具有一定的預測能力。此外,也可以參考各鑑別函數的特徵值和其累積解釋量,以及預測變數的顯著性(p 值小於 0.05)。
Q2: 如何處理預測變數中存在的多重共線性問題?
多重共線性是指預測變數之間存在高度相關性,這會影響模型的穩定性和鑑別函數係數的解釋。在 SPSS 中,您可以在「統計量」選項中勾選 **「協方差矩陣 (Covariances for each group)」** 和 **「合併的協方差矩陣 (Pooled within-groups covariance matrix)」**,並自行計算變數之間的相關係數矩陣來檢視。如果發現顯著的多重共線性,可以考慮移除高度相關的變數,或者使用主成分分析 (PCA) 等降維技術。
Q3: 區別分析適用於多少個群體?
傳統的區別分析(線性區別分析)可以處理兩個或多個群體。當群體數量較多時(通常超過 3 個),鑑別函數的數量會增加,解釋也會更為複雜。對於兩個群體,區別分析與邏輯回歸有著密切的聯繫。當群體數量大於兩個時,您還可以考慮使用判別函數分析 (Discriminant Function Analysis) 的其他變種,或者使用其他分類模型,如決策樹、支持向量機 (SVM) 等。
Q4: 如何選擇預測變數?
選擇預測變數主要依賴於您的研究理論和數據的探索性分析。理論上,您應該選擇那些您認為可能與群體歸屬相關的變數。在 SPSS 中,您可以通過查看 **「變數的 F 值 (Variables Unswarthed)」** 來初步判斷哪些變數對區分群體最重要(F 值越大,p 值越小,則變數越重要)。另外,結合 **「結構矩陣 (Structure Matrix)」** 可以幫助您理解變數與鑑別函數的關聯,從而選擇對構建有意義鑑別函數貢獻最大的變數。
Q5: 何時應該使用區別分析而不是其他分類方法?
區別分析在以下情況下是個不錯的選擇:
- 您希望了解哪些變數對區分已知群體最為重要,並量化它們的貢獻。
- 您對變數與鑑別函數之間的關係感興趣,希望解釋鑑別函數的意義。
- 您的預測變數是連續的(雖然也可以處理類別變數,但對連續變數效果更佳)。
- 您的群體是預先定義好的,並且您想建立一個分類規則來預測新個體的群體歸屬。
如果您的主要目的是構建一個準確的預測模型,而對變數的解釋性要求不高,或者您的數據不符合區別分析的假設(如預測變數的多元正態分佈和方差齊性),則可以考慮邏輯回歸、決策樹、隨機森林等其他分類方法。

