도서 <데이터 분석가가 반드시 알아야 할 모든 것> 참조
- 데이터 기초 체력 기르기
- 머신러닝과 전통적 통계학의 차이
- 머신러닝의 주된 목적은 예측(Prediction)이고, 통계학의 주된 목적은 해석(Explanation)
- 머신러닝은 미래를 예측하고, 모델에 기반한 정확한 분류나 선택을 하는 것에 목적
- 예측 정확도를 높이기 위한 알고리즘을 적용한 모델을 생성하는 것에 집중
- 데이터를 기반으로 가설을 끌어내어 검증
- 통계학은 과거와 현재 데이터를 활용하여 현상을 해석하고 의미를 찾는 것에 집중
- 통계학은 확률변수를 통해 통계적 수치를 검정하는 방향으로 접근
- 우선 가설을 설정하고 데이터를 확인
- 기술 통계와 추론 통계
- 기술 통계는 문자 그대로 주어진 데이터의 특성을 사실에 근거하여 설명하고 묘사하는 것(EDA)
- 추론 통계는 표본 집단으로부터 모집단의 특성을 추론하는 것
- 편향(bias)
- 비표본 오차의 원인으로 표본추출편향, 가구편향, 무응답편향, 응답편향 등
- 브래들리 효과란 여론 조사를 할 때 피조사자가 자신의 생각이나 신념을 밝히기 어려워하여 거짓된 응답을 하는 현상
- 인지적 편향: 사람들은 언제나 합리적으로 생각하고 행동하는 것이 아니며, 휴리스틱을 통해 왜곡된 지각으로 결정을 하는 경우가 많음
- 확증 편향: 자신이 본래 믿고 있는 대로 정보를 선택적으로 받아들이고 임의로 판단하는 편향
- 기준점 편향: 분석가가 가장 처음에 정보에 지나치게 매몰되는 편향
- 선택 지원 편향: 본인이 의사결정을 내리는 순간 그 선택의 긍정적인 부분에 대해 더 많이 생각하고 그 결정에 반대되는 증거를 무시하게 되는 편향
- 분모 편향: 분수 전체가 아닌 분자에만 집중하여 현황을 왜곡하여 판단하게 되는 편향
- 생존자 편향: 소수의 성공한 사례를 일반화된 것으로 인식함으로써 나타나는 편향
- 머신러닝 모델 측면의 편향과 분산
- 편향은 예측값들이 정답과 일정하게 차이가 나는 정도를 의미하며, 분산은 주어진 데이터 포인트에 대한 모델 예측의 가변성을 뜻함
- 편향과 분산은 트레이드오프 관계
- 예측이나 분류 모델을 만들 때 주어진 학습 데이터에 잘 맞도록 모델을 만들수록 편향은 줄어들고 분산은 증가할 수밖에 없으므로 이 둘 간의 균형을 잘 맞춰 상황에 맞는 최적의 모델을 만드는 것이 데이터 과학자의 역할
- 확률 표본추출방법
- 단순 임의 추출방법: 제비뽑기나 로또 당첨 번호를 선정하듯이 표본을 추출
- 계층적 표본추출방법: 모든 구성단위에 일련번호를 부여한 뒤 일정한 간격으로 표본을 선택하는 방법
- 층화 표본추출방법: 모집단이 특정한 기준으로 분류가 가능할 때 쓰일 수 있는 방법
- 군집 표본추출방법: 층화 표본추출방법처럼 모집단을 특정한 기준으로 분류한 뒤, 그중 하나의 소집단을 선택하여 분석하는 방법
- 복원추출법(SWR): 처음 모집단에서 추출된 표본을 되돌려 넣고 다음 표본을 추출하는 방법
- 비복원추출법(SWOR): 처음 모집단에서 추출된 표본을 되돌려 넣지 않고 다음 표본을 추출하는 방법
- 변수
- 독립변수(= 설명변수, 입력변수, 예측변수, 조작 변수, 특징)
- 종속변수(= 반응변수, 출력변수, 피예측변수, 측정변수, 표적변수)
- 인과관계(causal relationship): 독립변수와 종속변수의 기본적 관계
- 상관관계(correlational relationship): 변수 간에 관련성이 존재하는 관계
- 독립관계(independent relationship): 변수 간에 상관성, 즉 상관계수가 0인 관계
- 의사관계(spurious relationship): 변수 간에 상관성은 있지만, 그 상관성이 다른 변수에 의해 나타난 관계
- 양방향적 인과관계(reciprocal causality): 두 변수가 서로 간에 인과적 영향을 미치는 관계
- 조절관계(moderating relationship): 독립변수와 종속변수 사이에서 강하고 불확정적인 영향을 미치는 관계
- 매개관계(mediational relationship): 독립변수와 종속변수의 중간에서 매개변수가 개입되어 독립변수의 영향을 종속변수에 전달하는 관계
- 척도
- 명목척도(nominal scale): 조사대상의 속성이나 범주를 구분하기 위한 목적으로 만들어진 척도
- 서열척도(ordinal scale): 조사대상의 속성 크기를 측정하여 대상 간의 순서관계를 측정하는 척도
- 등간척도(interval scale): 서열척도가 가지고 있는 정보와 함께 조사대상이 가지고 있는 속성의 상대적 크기의 차이를 비교할 수 있는 정보도 포함
- 비율척도(ratio scale): 가장 많은 정보를 담을 수 있는 척
- 데이터 분석의 목적성
- 기술적 분석: 과거나 현재에 어떤 일이 일어났는지를 파악하기 위한 분석, 데이터의 분포, 추세 등을 분석하여 상황을 모니터링
- 진단적 분석: 과거나 현재에 발생한 사건의 원인을 밝히기 위한 분석으로 데이터 간의 관계를 분석하여 인과관계를 찾음
- 예측 분석: 기계학습 모델 등을 사용하여, 미래에 어떤 일이 어느 정도의 확률로 일어날지를 예측
- 처방적 분석: 예측되는 미래의 결과를 위해 어떻게 하면 좋을지 처방하기 위한 분석으로 제한된 자원을 효과적으로 활용하여 최적의 성과를 낼 수 있도록 방향을 도출
- 통계학 가설 검정의 궁극적인 목표는 기존의 주장이 옳은지 아니면 새로운 연구나 분석을 통한 주장이 맞는지를 검정하는 것