Statistic

卡方檢定（Chi-Square Test）入門教學

以直觀的方式理解卡方檢定（Chi-Square Test）的概念、原理與實際應用，學習如何判斷兩個分類變數是否存在關聯。

為什麼需要卡方檢定？

在資料分析或機器學習中，我們經常會遇到這樣的問題：

「兩個分類變數之間是否存在關聯？」

例如：

性別是否會影響某產品的購買行為？
是否為會員是否與是否購買有關？
詐欺交易是否與某種交易類型有關？

這類問題的資料通常不是連續數值，而是分類資料（categorical data）。

例如：

性別	是否購買
男	是
女	否
男	是
女	否

在這種情況下，我們無法使用平均數、相關係數等方法來判斷關係，因此就需要一種專門處理分類資料關聯性的方法。

卡方檢定（Chi-Square Test） 正是為了解決這類問題而設計的統計工具。

卡方檢定在做什麼？

卡方檢定的核心想法其實非常直觀：

比較「實際觀察到的數量」與「理論上應該出現的數量」是否有顯著差異。

如果兩者差異很大，我們就會懷疑：這兩個變數之間可能存在關聯。

如果差異很小，則表示：資料看起來只是隨機產生，兩個變數可能彼此獨立。

一個簡單的例子

假設某電商平台想研究：性別是否會影響商品購買行為。

收集到的資料如下：

性別	購買	未購買	總數
男	40	60	100
女	60	40	100
總數	100	100	200

這個表格稱為 列聯表（Contingency Table）。

從表面上看，好像：

男生比較不買
女生比較會買

但問題是：

這個差異是真的存在，還是只是隨機造成？

這就是卡方檢定要回答的問題。

如何計算「期望值」？

卡方檢定會先計算：如果兩個變數完全沒有關係，每個格子應該出現多少數量。

公式為：

Expected = \frac{Row\ Total \times Column\ Total}{Grand\ Total}

例如，「男性且購買」這格的期望值為：

\frac{100 \times 100}{200} = 50

因此期望表格會變成：

性別	購買 (Expected)	未購買 (Expected)
男	50	50
女	50	50

也就是說，如果性別和購買行為完全沒有關係，理論上應該是：

男買 50
男不買 50
女買 50
女不買 50

但實際觀察到的是：

男買 40
男不買 60
女買 60
女不買 40

因此就出現了差異。

卡方統計量

接下來我們要計算：實際值與期望值的差距有多大。

卡方統計量公式為：

\chi^2 = \sum \frac{(Observed - Expected)^2}{Expected}

這個公式的意思是：

計算每個格子的差異
把差異平方
再除以期望值
最後全部加總

如果：

$\chi^2$ 很小 → 代表差異不大
$\chi^2$ 很大 → 代表差異明顯

當 $\chi^2$ 超過某個門檻時，我們就會認為：兩個變數之間存在統計上的關聯。

假設檢定的觀念

卡方檢定其實是一種假設檢定（Hypothesis Testing）。

我們會先建立兩個假設：

虛無假設（H₀）

兩個變數彼此獨立，沒有關聯。

對立假設（H₁）

兩個變數之間存在關聯。

接著透過卡方統計量計算 p-value：

如果 p-value < 0.05 → 拒絕虛無假設 → 代表兩個變數可能存在關聯
如果 p-value ≥ 0.05 → 無法拒絕虛無假設 → 資料不足以證明兩者有關

Python 實作範例

在 Python 中，我們可以使用 scipy 來進行卡方檢定。

import numpy as np
from scipy.stats import chi2_contingency

# 建立列聯表
table = np.array([
    [40, 60],
    [60, 40]
])

chi2, p, dof, expected = chi2_contingency(table)

print("Chi-square:", chi2)
print("p-value:", p)
print("Expected table:\n", expected)