본문 바로가기

전체 글18

[Data] #6 도서 참조 머신러닝 분석 방법론 선형 회귀분석과 Elastic Net(예측모델) 회귀분석은 각 독립변수의 평균을 통해 종속변수를 예측 즉, 회귀분석은 종속변수 Y의 값에 영향을 주는 독립변수 X들의 조건을 고려하여 구한 평균값 최적의 회귀선은 예측치와 관측치들 간의 수직 거리(오차)의 제곱합을 최소로 하는 직선(최소제곱추정법) 기본 조건 충족 잔차의 정규성: 독립변수에 해당되는 종속변수의 값들의 잔차는 정규분포를 해야 한다. 잔차의 등분산성: 잔차의 분산은 회귀 모형의 독립 변숫값과 상관없이 일정해야 한다. 선형성: 독립변수 값의 변화에 따른 종속변수 값의 변화는 일정해야 한다. 다항회귀: 독립변수와 종속변수의 관계가 비선형 관계일 때 변수에 각 특성의 제곱을 추가하여 회귀선을 비선형으로 변환하는 모델 .. 2024. 1. 18.
[Data] #5 도서 참조 통계 기반 분석 방법론 분석 모델 통계 모델: 모형과 해석을 중요하게 생각하며, 오차와 불확정성을 강조 기계 학습: 대용량 데이터를 활용하여 예측의 정확도를 높이는 것을 중요하게 생각 종속변수의 유무 지도 학습 예측 분석 분류 분석 비지도 학습 차원 축소 연관 규칙 강화학습 Model-free RL Model-based RL 주성분 분석(PCA) 여러 개의 독립변수들을 잘 설명해 줄 수 있는 주된 성분을 추출하는 기법 변수의 수를 줄임으로써 모형을 간단하게 만들 수 있고 분석 결과를 보다 효과적으로 해석 변수들이 모두 등간 척도나 비율척도로 측정한 양적변수여야 하고, 관측치들이 서로 독립적이고 정규분포를 이루고 있어야 한다. 차원을 감소하는 방법 변수 선택을 통해 비교적 불필요하거나 유의성이 .. 2024. 1. 17.
[Data] #4 도서 참조 데이터 전처리와 파생변수 생성 결측값 처리 결측값 종류 완전 무작위 결측(MCAR): 순수하게 결측값이 무작위로 발생한 경우 무작위 결측(MAR): 다른 변수의 특성에 의해 해당 변수의 결측치가 체계적으로 발생한 경우 비무작위 결측(NMAR): 결측값들이 해당 변수 자체의 특성을 갖고 있는 경우 결측값 처리 방법 표본 제거 방법: 결측값이 심하게 많은 변수를 제거하거나 결측값이 포함된 행을 제외하고 데이터 분석 평균 대치법: 결측값을 제외한 온전한 값들의 평균을 구한 다음, 그 평균 값을 결측값들에 대치하는 것 보간법: 데이터가 시계열적 특성을 가질 때 사용 회귀대치법: 해당 변수와 다른 변수 사이의 관계성을 고려하여 결측값을 계산 확률적 회귀대치법: 인위적으로 회귀식에 확률 오차항을 추가하여.. 2024. 1. 16.
[Data] #3 도서 참조 데이터 탐색과 시각화 EDA와 데이터 시각화는 구별 EDA 단계에서 데이터 파악을 좀 더 효율적으로 하기 위해 시각화를 하기도 하지만, 데이터 시각화의 궁극적 목적은 분석 결과를 커뮤니케이션 하기 위함 시간의 흐름에 따른 변화를 나타내기 위한 시간 시각화 그룹별 차이를 나타내기 위한 비교 시각화 전체 데이터에서 특정 항목이 차지하는 비중을 나타내기 위한 분포 시각화 두 개 이상의 수치 데이터를 통해 서로 간의 관계를 나타내기 위한 관계 시각화 실제 지리적 위치에 수치를 나타내는 공간 시각화 탐색적 데이터 분석(EDA: Exploratory Data Analysis) 가공하지 않은 원천의 데이터를 있는 그대로 탐색하고 분석하는 기법 극단적인 해석은 피해야 하며 지나친 추론이나 자의적 해석도 지양.. 2024. 1. 15.