본문 바로가기
카테고리 없음

[Data] #5

by dangbok 2024. 1. 17.

도서 <데이터 분석가가 반드시 알아야 할 모든 것> 참조

 

  • 통계 기반 분석 방법론
    • 분석 모델
      • 통계 모델: 모형과 해석을 중요하게 생각하며, 오차와 불확정성을 강조
      • 기계 학습: 대용량 데이터를 활용하여 예측의 정확도를 높이는 것을 중요하게 생각
        • 종속변수의 유무
          • 지도 학습
            • 예측 분석
            • 분류 분석
          • 비지도 학습
            • 차원 축소
            • 연관 규칙
          • 강화학습
            • Model-free RL
            • Model-based RL
    • 주성분 분석(PCA)
      • 여러 개의 독립변수들을 잘 설명해 줄 수 있는 주된 성분을 추출하는 기법
      • 변수의 수를 줄임으로써 모형을 간단하게 만들 수 있고 분석 결과를 보다 효과적으로 해석
      • 변수들이 모두 등간 척도나 비율척도로 측정한 양적변수여야 하고, 관측치들이 서로 독립적이고 정규분포를 이루고 있어야 한다.
      • 차원을 감소하는 방법
        • 변수 선택을 통해 비교적 불필요하거나 유의성이 낮은 변수를 제거하는 방법
        • 변수들의 잠재적인 성분을 추출하여 차원을 줄이는 방법
      • PCA는 변수의 수를 축약하면서 정보의 손실을 최소화하고자 할 때 사용되며, CFA(공통요인분석)는 변수들 사이에 존재하는 차원을 규명함으로써 변수들 간의 구조를 파악하는 데 주로 사용
    • 공통요인분석(CFA)
      • PCA와 CFA는 요인분석을 하기 위한 기법의 종류
        • 요인분석을 하기 위해 전체 분산을 토대로 요인을 추출하는 PCA
        • 공통분산만을 토대로 요인을 추출하는 CFA
          • 상관성이 높은 변수들을 묶어 잠재된 몇 개의 변수를 찾는다는 점에서 차이
      • 요인분석
        • 탐색적 요인분석(EFA): 변수와 요인 간의 관계가 사전에 정립되지 않거나 체계화되지 않은 상태에서 변수 간의 관계를 알아보기 위해 사용
        • 확인적 요인분석(CFA): 이미 변수들의 속성을 예상하고 있는 상태에서 실제로 구조가 그러한지 확인하기 위한 목적으로 사용
        • 요인분석을 하기 위해서는 우선 독립변수들 간의 상관성이 요인분석에 적합한지 검증 절차 필요
          • 바틀렛 테스트: 행렬식을 이용하여 카이제곱값을 구하여 각 변수들 사이의 상관계수의 적합성을 검증하는 방법으로 유의확률 p 값으로 나타냄
          • KMO 검정: 변수들 간의 상관관계가 다른 변수에 의해 잘 설명되는 정도를 나타내는 값을 통계적으로 산출하는 검정 방법
        • 적합성을 검증한 후에는 요인분석을 통해 생성되는 주성분 변수들의 고유치를 확인하여 요인의 개수를 결정
        • 요인 적재 값을 통해 각 변수와 요인 간의 상관관계의 정도를 확인 가능
    • 다중공선성 해결과 섀플리 밸류 분석
      • 다중공선성을 판별하는 기준
        • 회귀 분석 모델을 실행하기 전에 상관분석을 통해 독립 변수 간의 상관성을 확인하여 높은 상관계수를 갖는 독립변수를 찾아내는 방법
        • 회귀분석 결과에서 독립변수들의 설명력을 의미하는 결정계수 값은 크지만 회귀계수에 대한 t값이 낮음을 확인하여 찾아내는 방법
        • VIF(분산팽창계수)를 통해 다중공선성 판단 -> 10 이상일 경우
      • 다중공선성을 해결하기 위한 가장 기본적인 방법은 VIF값이 높은 변수들 중에서 종속변수와의 상관성(설명력)이 가장 낮은 변수를 제거하고 다시 VIF값을 확인하는 것을 반복하는 것
      • 데이터 분석 환경에서 제공하는 변수 선택 알고리즘 활용하여 해결
        • 전진 선택법
        • 후진 제거법
        • 단계적 선택법
      • 섀플리 밸류
        • 각 독립변수가 종속변수의 설명력에 기여하는 순수한 수치를 계산하는 방법
    • 데이터 마사지와 블라인드 분석
      • 데이터 마사지
        • 데이터 분석 결과가 예상하거나 의도한 방향과 다를 때 데이터의 배열을 수정하거나 관점을 바꾸는 등 동일한 데이터라도 해석이 달라질 수 있도록 유도하는 것
        • 편향된 데이터 전처리
        • 매직그래프 사용
        • 분모 바꾸기 등 관점 변환
        • 의도적인 데이터 누락 및 가공
        • 머신러닝 모델의 파라미터 값 변경 및 연산반복
        • 심슨의 역설
      • 블라인드 분석
        • 편향에 의한 오류를 최소화하기 위한 방법
        • 기존에 분석가가 중요하다고 생각했던 변수가 큰 의미가 없는 것으로 결과가 나왔을 때 무리해서 의미부여를 하거나 그 변수에 집착하여 해석에 유리하도록 변수를 가공하게 되는 실수를 방지하는 목적
    • Z-test와 T-test
      • 단일 표본 집단의 평균 변화를 분석하거나 두 집단의 평균값 혹은 비율 차이를 분석할 때 사용
      • 분석하고자 하는 변수가 양적 변수이며, 정규 분포이며, 등분산이라는 조건 충족
      • 통계적으로 매출 차이가 있는지의 여부를 가설로 설정하고 가설 검정의 종류와 유의수준을 설정
      • 매출 평균이 단순히 같지 않은지를 검정하기 위한 것인지(양측검정), 매출 평균이 더 적은가를 검정하기 위한 것인지(왼쪽꼬리검정), 매출 평균이 더 큰가를 검정하기 위한 것인지(오른꼬리검정)에 따라 적합한 검정 방법을 선택
      • 평균의 차이가 클수록, 표본의 수가 클수록 t값은 증가
    • ANOVA
      • 세 집단 이상의 평균을 검정할 때 사용
      • F분포 사용
      •  F검정의 통곗값은 집단 간 분산의 비율을 나타낸다.
      • 독립변수는 집단을 나타낼 수 있는 범주형 변수이어야 하며, 종속 변수는 연속형 변수이어야 한다.
        • 회귀분석은 독립변수와 종속변수가 연속형일 때 사용하며 교착분석은 독립변수와 종속변수가 분류형일 때 사용
      • 집단 내 분산과 집단 간 평균의 분산 사용
      • 사후 검증 시행
        • 독립변수 수준 사이에서 평균의 차이를 알고자 할 때 쓰이는 기법
        • 집단의 수가 같을 때 사용하는 Turkey의 HSD 검증 방법
        • 집단의 수가 다를 때 사용하는 Scheffe 검증 방법
    • 카이제곱 검정(교차분석)
      • 명목 혹은 서열척도와 같은 범주형 변수들 간의 연관성을 분석하기 위해 결합분포를 활용하는 방법
      • Python 실습
        • 기존의 원천 데이터를 카이제곱 검정용 데이터셋으로 가공 crosstab()
        • 카이제곱 검정 수행 chi2_contingency()