도서 <데이터 분석가가 반드시 알아야 할 모든 것> 참조
- 통계 기반 분석 방법론
- 분석 모델
- 통계 모델: 모형과 해석을 중요하게 생각하며, 오차와 불확정성을 강조
- 기계 학습: 대용량 데이터를 활용하여 예측의 정확도를 높이는 것을 중요하게 생각
- 종속변수의 유무
- 지도 학습
- 예측 분석
- 분류 분석
- 비지도 학습
- 차원 축소
- 연관 규칙
- 강화학습
- Model-free RL
- Model-based RL
- 지도 학습
- 종속변수의 유무
- 주성분 분석(PCA)
- 여러 개의 독립변수들을 잘 설명해 줄 수 있는 주된 성분을 추출하는 기법
- 변수의 수를 줄임으로써 모형을 간단하게 만들 수 있고 분석 결과를 보다 효과적으로 해석
- 변수들이 모두 등간 척도나 비율척도로 측정한 양적변수여야 하고, 관측치들이 서로 독립적이고 정규분포를 이루고 있어야 한다.
- 차원을 감소하는 방법
- 변수 선택을 통해 비교적 불필요하거나 유의성이 낮은 변수를 제거하는 방법
- 변수들의 잠재적인 성분을 추출하여 차원을 줄이는 방법
- PCA는 변수의 수를 축약하면서 정보의 손실을 최소화하고자 할 때 사용되며, CFA(공통요인분석)는 변수들 사이에 존재하는 차원을 규명함으로써 변수들 간의 구조를 파악하는 데 주로 사용
- 공통요인분석(CFA)
- PCA와 CFA는 요인분석을 하기 위한 기법의 종류
- 요인분석을 하기 위해 전체 분산을 토대로 요인을 추출하는 PCA
- 공통분산만을 토대로 요인을 추출하는 CFA
- 상관성이 높은 변수들을 묶어 잠재된 몇 개의 변수를 찾는다는 점에서 차이
- 요인분석
- 탐색적 요인분석(EFA): 변수와 요인 간의 관계가 사전에 정립되지 않거나 체계화되지 않은 상태에서 변수 간의 관계를 알아보기 위해 사용
- 확인적 요인분석(CFA): 이미 변수들의 속성을 예상하고 있는 상태에서 실제로 구조가 그러한지 확인하기 위한 목적으로 사용
- 요인분석을 하기 위해서는 우선 독립변수들 간의 상관성이 요인분석에 적합한지 검증 절차 필요
- 바틀렛 테스트: 행렬식을 이용하여 카이제곱값을 구하여 각 변수들 사이의 상관계수의 적합성을 검증하는 방법으로 유의확률 p 값으로 나타냄
- KMO 검정: 변수들 간의 상관관계가 다른 변수에 의해 잘 설명되는 정도를 나타내는 값을 통계적으로 산출하는 검정 방법
- 적합성을 검증한 후에는 요인분석을 통해 생성되는 주성분 변수들의 고유치를 확인하여 요인의 개수를 결정
- 요인 적재 값을 통해 각 변수와 요인 간의 상관관계의 정도를 확인 가능
- PCA와 CFA는 요인분석을 하기 위한 기법의 종류
- 다중공선성 해결과 섀플리 밸류 분석
- 다중공선성을 판별하는 기준
- 회귀 분석 모델을 실행하기 전에 상관분석을 통해 독립 변수 간의 상관성을 확인하여 높은 상관계수를 갖는 독립변수를 찾아내는 방법
- 회귀분석 결과에서 독립변수들의 설명력을 의미하는 결정계수 값은 크지만 회귀계수에 대한 t값이 낮음을 확인하여 찾아내는 방법
- VIF(분산팽창계수)를 통해 다중공선성 판단 -> 10 이상일 경우
- 다중공선성을 해결하기 위한 가장 기본적인 방법은 VIF값이 높은 변수들 중에서 종속변수와의 상관성(설명력)이 가장 낮은 변수를 제거하고 다시 VIF값을 확인하는 것을 반복하는 것
- 데이터 분석 환경에서 제공하는 변수 선택 알고리즘 활용하여 해결
- 전진 선택법
- 후진 제거법
- 단계적 선택법
- 섀플리 밸류
- 각 독립변수가 종속변수의 설명력에 기여하는 순수한 수치를 계산하는 방법
- 다중공선성을 판별하는 기준
- 데이터 마사지와 블라인드 분석
- 데이터 마사지
- 데이터 분석 결과가 예상하거나 의도한 방향과 다를 때 데이터의 배열을 수정하거나 관점을 바꾸는 등 동일한 데이터라도 해석이 달라질 수 있도록 유도하는 것
- 편향된 데이터 전처리
- 매직그래프 사용
- 분모 바꾸기 등 관점 변환
- 의도적인 데이터 누락 및 가공
- 머신러닝 모델의 파라미터 값 변경 및 연산반복
- 심슨의 역설
- 블라인드 분석
- 편향에 의한 오류를 최소화하기 위한 방법
- 기존에 분석가가 중요하다고 생각했던 변수가 큰 의미가 없는 것으로 결과가 나왔을 때 무리해서 의미부여를 하거나 그 변수에 집착하여 해석에 유리하도록 변수를 가공하게 되는 실수를 방지하는 목적
- 데이터 마사지
- Z-test와 T-test
- 단일 표본 집단의 평균 변화를 분석하거나 두 집단의 평균값 혹은 비율 차이를 분석할 때 사용
- 분석하고자 하는 변수가 양적 변수이며, 정규 분포이며, 등분산이라는 조건 충족
- 통계적으로 매출 차이가 있는지의 여부를 가설로 설정하고 가설 검정의 종류와 유의수준을 설정
- 매출 평균이 단순히 같지 않은지를 검정하기 위한 것인지(양측검정), 매출 평균이 더 적은가를 검정하기 위한 것인지(왼쪽꼬리검정), 매출 평균이 더 큰가를 검정하기 위한 것인지(오른꼬리검정)에 따라 적합한 검정 방법을 선택
- 평균의 차이가 클수록, 표본의 수가 클수록 t값은 증가
- ANOVA
- 세 집단 이상의 평균을 검정할 때 사용
- F분포 사용
- F검정의 통곗값은 집단 간 분산의 비율을 나타낸다.
- 독립변수는 집단을 나타낼 수 있는 범주형 변수이어야 하며, 종속 변수는 연속형 변수이어야 한다.
- 회귀분석은 독립변수와 종속변수가 연속형일 때 사용하며 교착분석은 독립변수와 종속변수가 분류형일 때 사용
- 집단 내 분산과 집단 간 평균의 분산 사용
- 사후 검증 시행
- 독립변수 수준 사이에서 평균의 차이를 알고자 할 때 쓰이는 기법
- 집단의 수가 같을 때 사용하는 Turkey의 HSD 검증 방법
- 집단의 수가 다를 때 사용하는 Scheffe 검증 방법
- 카이제곱 검정(교차분석)
- 명목 혹은 서열척도와 같은 범주형 변수들 간의 연관성을 분석하기 위해 결합분포를 활용하는 방법
- Python 실습
- 기존의 원천 데이터를 카이제곱 검정용 데이터셋으로 가공 crosstab()
- 카이제곱 검정 수행 chi2_contingency()
- 분석 모델