Data Analysis & Merketing
[다변량 자료분석] 03. 인자분석 본문
인자분석
인자분석은 상호연관된 다변량 확률변수들 간의 내부적 상호의존관계를 저변에 내재하는 몇 개의 인자(요인)들을 통해 재현, 해석하고자 한다. 관찰 가능한 많은 특성/항목들로부터 몇 가지 일반적인 성격(인자)들을 발견하거나 만들어내는 통계적 과정이라고 할 수 있으며 인자들을 어떤 형태로 결합하면 거꾸로 각 항목들을 설명할 수 있다.
특히 사회과학 부문에서 변수축소와 가설적 구성개념의 구축(어떤 특성이 있음을 증명)을 위해 응용되어 왔으며, 이를 위해서는 변수들 사이의 관계에 관한 정보를 가지고 있는 공분산행렬, 상관행렬이 주요 분석대상이 된다.
서로 상관관계를 맺고 있어서 직접적으로 해석하기 어려운 여러 변수들 간의 구조적 연관관계를 상대적으로 독립이면서 저변구조를 이해하기 위한 개념상 의미를 부여할 수 있는, 원래 변수들의 개수보다 훨씬 적은 개수의 공통인자를 상정하여 이들을 통해 분석하고자 하는 통계적 방법이다.
공통인자
- 변수들이 그들의 구조적 측면에서 서로 공유하고 있는 확률적 인자(특성)
- 변수들 간의 상관관계를 생성시키는 가설적인, 관찰할 수 없는, 저변에 깔려있는 인자(특성)
- 모든 공통적인 인자들이 축출된다면 변수들 간에 더 이상의 상관관계가 존재하지 않게 된다.
즉, 인자분석은 상관/공분산 행렬의 구조에 관한 통계적 모형을 구축하고, 그와 같은 구조를 생성시키는 소수 몇 개의 인자를 유도하여 변수들 간의 구조적 관계를 해석하는 상관/공분산 중심의 기법이라고 할 수 있다.
따라서 변수들 중 일부가 같은 공통의 뿌리를 가지고 있기 때문에 상관계수라는 척도를 통해 집단화가 가능하다면, 이는 변수들 간의 복잡한 구조를 단순화시키는 것이라고 할 수 있다. (집단 : 집단 내에 있는 변수들은 서로 높은 상관관계, 집단 간 변수들은 상대적으로 낮은 상관관계) (인자분석 : 대상이 변수, 군집분석 : 대상이 개체)
즉, 각 집단은 관찰된 상관관계의 생성을 반영하는 저변에 깔려 있는 단 하나의 인자로 대표되어 질 수 있다.
변수들을 집단화한다는 점에서 변수군집분석은 변수들 간의 유사성의 정도에 기초를 두고 있으며, 이는 공통인자의 해석과 밀접한 연관이 있다.
인자분석의 접근방법(연구자의 목적에 따라)
1. 탐색적 : 공통인자와 원래변수들 간에 내재하는 인과관계 탐구(이 방법을 집중적으로 다룰 것임)
2. 확증적 : 공통인자들의 개수나 인자들 간의 관계 등 모형에 관한 구체적 가정들을 실제자료로부터 지지/부합되는 정도를 통해 평가
01 상관행렬과 고유값 출력(데이터의 특성 파악)
1. 인자의 개수를 정하기 위해 상관행렬과 고유값을 출력하여 확인한다.
- 고유값 > 1
- Cumulative Proportion : 전체 분산에 대한 백분율(누적설명비율)
02 KMO 표본적합성 측도, 구형성 검정
2. 인자분석 가능 여부 확인
1) 표본적합성 측도(MSA) : 관측된 상관계수들의 값과 편상관계수들의 값을 비교하는 지수.
- 편상관계수 : 여러 추가 변수의 효과를 제어한 경우에 있어 두 변수 간 선형 관계를 나타내는 계수
- 이 값이 클수록 변수 저변에 공통적인 잠재요인이 존재함
- 0.9 이상 : 훌륭함(저변에 인자가 존재함)
- 0.8 ~ 0.89 : 가치가 있음
- 0.7 ~ 0.79 : 중급(인자의 경계가 선명하지 않음)
- 0.6 ~ 0.69 : 평범함(인자의 경계가 선명하지 않음)
- 0.5 ~ 0.59 : 빈약함
- 0.5 미만 : 받아들이기 힘듦
2) Bartlett의 구형성 검정 : "상관계수 행렬이 단위행렬이다"라는 귀무가설을 기각할 수 있는지를 검정하는 것
- 상관계수 행렬이 단위행렬이다. = 모든 변수들이 독립이다. = 공통인자를 만들 수 없다. ----> 귀무가설이 기각되어야 함
- 귀무가설 : 공통인자가 존재하지 않는다.
- 대립가설 : 공통인자가 존재한다.
----> Bartlett 검정의 p-값이 유의수준보다 작아서 귀무가설이 기각되어야 인자분석을 실시할 가치가 있다!!
03 자료행렬을 입력으로 하는 경우
principal 함수로부터 얻어진 리스트 객체에서 values 객체를 호출하여 상관행렬의 고유값을 출력할 수 있다. (인자 개수 확인 가능)
loadings 객체를 호출하여 인자적재값을 출력할 수 있다.
인자적재값 : 각 관찰변수와 인자들 간의 연관성의 크기(인자적재값이 높은 변수들이 해당 인자를 잘 설명한다.)
04 상관행렬을 입력으로 하는 경우
principal 함수를 사용할 때 "r =" 옵션을 통해 데이터가 상관행렬임을 언급해 주어야 한다.
values 객체를 호출하여 상관행렬의 고유값을 출력할 수 있으며 이를 통해 "nfactors = " 옵션을 지정해주어야 한다.
loadings 객체를 호출하여 인자적재값을 출력할 수 있다.
인자적재 플롯을 통해 인자를 시각적으로 확인할 수 있다.
[참고문헌]
R을 활용한 다변량 자료분석 방법론 (강현철, 연규필, 한상태 지음 / 자유아카데미)
'Statistics' 카테고리의 다른 글
[다변량 자료분석] 02. 주성분분석 (0) | 2023.03.27 |
---|---|
[다변량 자료분석] 01 서론 : 다변량 자료란? (0) | 2023.03.26 |