在我念碩士班的時候,因為有用到感性工學,
常常會聽到數量化一類或數量化二類,
但當時常常搞不清楚狀況。
所以現在到日本念博士班後,
搞懂了他們其實就是我們所熟見的統計分析,
也把這些資料整理出來,讓學弟妹有需要的人參看。
數量化理論(Hayashi's quantification methods),
是日本統計數理研究所的前所長林知己夫在1940年代後期到1950年代獨自開發的多變量數據分析法,
也就是我們在研究中常見的統計方法。
若使用到的理論是源自日本,可能會常聽到數量化○類,
數量化理論有I類、II類、III類、IV類、V類、VI類共6種方法,
現在以I類到IV類比較常見,V類、VI類很少使用。
該方法在日本國內開發並得到普及,
但由於該方法開發時並沒有注意到名稱不同但是本質相同的其他方法,
現在也有不少人提倡使用國外的本質上同樣的方法。
其中I類可對應到變異數分析(ANOVA),II類為判別分析,III類對應於主成份分析和因數分析。
_________________________________________________
數量化一類(Quantification Type I)
是自變數(解釋變數)中具有類別資料、依變數(被解釋變數)為數值資料的線性分析,
藉由將類別資料轉換為數值資料,
從而能夠應用回歸分析或其他數值分析技術,
這種方法適合處理類別尺度或名義尺度的變數(categorical variables),如:性別、地區、班級、顏色等。
數量化一類的概念
數量化一類方法將類別變數轉換為虛擬變數(dummy variable)以便能在線性回歸模型中使用。
這種轉換基於一個假設,即不同類別對應著某種潛在的數值結構,
所以也可以藉由真實的數據收集來建立虛擬變數。
虛擬變數的使用範例
假設現在要探討教室牆壁的顏色是否影響學生在課堂上的藝術表現,
我們收集了一次學生的繪畫成績(Y)作為依變數,並以學生的學業成績(X1)、教室牆壁的顏色(X2)作為自變數來解釋。
目前的類別變數為「教室牆壁的顏色」,
包括三個類別:紅色、藍色和綠色,
每個類別創建二元變數(0 或 1)來表示是否屬於該類別。
通常為 k 個類別數量,建立k−1個虛擬變數,所以現在3個類別只需要2個虛擬變數D1, D2。
我們可以這麼假設:
- 紅色:D1=1,D2=0
- 藍色:D1=0,D2=1
- 綠色(基準類別):D1=0,D2=0
- 回歸方程式: Y = β0+ β1X1 + β2X2 + ϵ = β0+ β1X1 + (β21D1 + β22D2 ) + ϵ
在回歸模型中,綠色(虛擬變數皆為0)作為基準類別,用於與紅色和藍色的結果進行比較。
數量化二類(Quantification Type II)
是自變數(解釋變數)與依變數(被解釋變數)皆為類別變數的線性分析,是一種質的分析。
與判別分析有點類似的方法,
不同的點是,
判別分析中,自變數(解釋變數)的資料格式是的數值資料,而數量化二類是類別資料。
數量化二類的概念
數量化二類與一類都有使用類別資料來解釋依變數,
兩者的區別在於,他們需要解釋的結果,
數量化一類是數值、數量化二類是類別,所以數量化一類適用於預測,而數量化二類則適用於判斷。
舉例:數量化一類可以研究像是收集性別、薪資、地區的資料,用以預測「一個人每月花費於治裝的費用」。
數量化二類可以研究像是收集性別、薪資、地區的資料,用以判斷「一個人是否會進一家新店家消費」。
數量化二類的使用範例
假設現在要做一份簡單問卷來調查「在火車站前新開的珍珠奶茶店是否能熱賣」,
購買意願(想買、不想買)為依變數(Y)作為判斷,
影響購買的因子(X)為自變數,
包括:
經過的人的性別(男、女、非二元性別)、
年齡區間(小學生、中學生、大學生、上班族、退休族)、
飲料的消費頻率(一週0次、1-3次、4-6次、7次以上)、
在問卷中為了方便作答,常常會設計勾選題的方式,所以呈現的都是區間,也就是類別變數。
- 購買意願:想買(1)、不想買(0)
- 性別:有3個類別,創建2個虛擬變數
- 年齡區間:有5個類別,創建4個虛擬變數
- 飲料消費頻率:有4個類別,創建3個虛擬變數
- 回歸方程式:Y = β0+ β1X1 + β2X2 + β3X3 + ϵ = β0+ (β11D11 + β12D12 ) + (β21D21 + β22D22 +β23D23 + β24D24 ) ++ (β31D31 + β32D32 +β33D33 ) + ϵ
- 回歸式中的自變數,會變成多個虛擬變數的和,最後一樣將問卷的資料以0與1套用,即可算出關係式。