Table of Contents
통계
- 집단적 현상이나 수집된 자료의 내용에 관한 수량적인 기술
- 수집된 자료를 정리하고 그 내용을 특징짓는 수치를 산정하여 일정한 체계에 따라 숫자로 나타내는 방법
통계의 역사
- 기술 통계: 수집한 데이터의 경향이나 성질을 수치나 표, 그래프 등으로 표현하는 방법
- 추측 통계:
- 추정: 모집단에서 추출한 표본을 이용해 모집단의 모수(평균값, 표준편차 등)를 확률적으로 추측하는 방법
- 검정: 표본을 토대로 모집단에 관한 가설을 세우고 참, 거짓을 판별하는 방법
- 베이즈 통계: 모수 자체가 확률분포
- 데이터 마이닝: 데이터를 분석해서 유익한 정보를 추출하는 작업
- 데이터 기반 의사결정: 데이터를 토대로 더 나은 판단을 내리는 것
- 머신러닝과 인공지능: 데이터에서 규칙성과 판단 기준을 찾아 미지의 영역을 예측하는 것
통계를 배우는 이유
데이터를 분석함에 있어 통계적 지식이 필요한 이유는 무엇일까?
우리가 통계를 배우는 이유는,
- 데이터를 수치적으로 요약할 수 있다
- 주어진 데이터를 이용해 미래를 수학적으로 예측할 수 있다
통계가 주는 이점은 우리가 데이터를 분석하는 이유와 잘 맞아떨어진다.
우리가 데이터를 분석하는,
- 이용자들에게 데이터를 수치, 시각적으로 요약해 정보를 제공한다
- 이용자들의 데이터를 통해 기호에 맞는 상품을 추천한다
- 미래의 주가를 예측해 이용자에게 더 나은 선택을 유도한다
통계적 분석 과정
그럼 우리는 어떤 과정을 통해 통계적 분석을 진행 할 수 있을까?
- DDA
- EDA
- CDA
- PDA
DDA(Descriptive Data Analysis)
- 무슨 일이 생겼는지 알아보는 단계
- 기술 통계에서 봤던 Central tendency, Dispersion, Distribution 을 확인한다
EDA(Exploratory Data Analysis)
- 무슨 이유로 생겼는지 알아보는 단계
- 어떤 일이 발생한 원인을 파악
- 변수간 상관관계를 파악
- 데이터를 탐색하고 논리적으로 가설을 세우고 가설을 검정할 수 있도록 데이터를 가공
CDA(Confirmatory Data Analysis)
- 알아본 이유에 대해 가설을 세우고 검정해보는 단계
- t검정, 카이제곱 검정, 분산분석(ANOVA) 등이 있다
가설 예시
- 비즈니스 의사결정
- A 가격보다 B 가격으로 했을 때 매출이 더 올랐다
- A, B, C, D 화면중에서 A 화면일 때 사용자들의 클릭률이 가장 높았다
- 피처 엔지니어링
- 변수 A가 타겟 T에 영향을 준다
- 변수 A의 Null 값은 의미가 없다
PDA(Predictive Data Analysis)
- 검정 결과에 기반해 행동하는 단계
- ex. 비즈니스 의사결정을 내린다
- ex. 피처 엔지니어링을 파이프라인화하고 데이터를 모델링한다
- ex. 머신러닝을 모델링 한다
어떤걸 분석할까
- 모집단의 모수를 추정하고 싶은 경우
- 점추정 -> 최대우도추정법(MLE), 최소제곱추정법(MSE) 등을 이용
- 구간 추정
- 차이가 있는지 검정
- 차이 검정 -> 2개 이하의 그룹은 t검정, 3개 이상인 경우에는 ANOVA를 이용한 F검정
- 변수간의 관계여부
- 교차 분석
- 상관 분석 -> 독립변수간 선형 관계 여부 확인
- 회귀 분석 -> 독립변수와 종속 변수의 관계 모델링
- 패턴
- 데이터 마이닝
- 비지도 학습
- 예측
- 머신러닝