Jay's Cookbook
Menu
  • Tags
  • Categories
  • Projects
Computer Science
OS
Network
Data Structure
Algorithm
Language
Code Architecture
Python
Javascript
Typescript
Java
Backend
Backend Theory
TypeORM
Node.js
NestJS
FastAPI
Frontend
HTML/CSS
React
Next.js
Data Engineering
DE Theory
MySQL
MongoDB
Elastic
Redis
Kafka
Spark
Airflow
AI
Basic
Pytorch
NLP
Computer Vision
Data Analytics
Statistics
Pandas
Matplotlib
DevOps
Git
Docker
Kubernetes
AWS
Statistics and Probability Series [Part1]: Intro
data_analytics
statistics

Statistics and Probability Series [Part1]: Intro

Jay Kim
Jay Kim 06 Sep 2022
시작 Statistics and Probability Series [Part2]: 기술통계

Table of Contents

  • 통계
  • 통계의 역사
  • 통계를 배우는 이유
  • 통계적 분석 과정
    • DDA(Descriptive Data Analysis)
    • EDA(Exploratory Data Analysis)
    • CDA(Confirmatory Data Analysis)
    • PDA(Predictive Data Analysis)
  • 어떤걸 분석할까

통계

  • 집단적 현상이나 수집된 자료의 내용에 관한 수량적인 기술
  • 수집된 자료를 정리하고 그 내용을 특징짓는 수치를 산정하여 일정한 체계에 따라 숫자로 나타내는 방법

통계의 역사

  • 기술 통계: 수집한 데이터의 경향이나 성질을 수치나 표, 그래프 등으로 표현하는 방법
  • 추측 통계:
    • 추정: 모집단에서 추출한 표본을 이용해 모집단의 모수(평균값, 표준편차 등)를 확률적으로 추측하는 방법
    • 검정: 표본을 토대로 모집단에 관한 가설을 세우고 참, 거짓을 판별하는 방법
  • 베이즈 통계: 모수 자체가 확률분포
  • 데이터 마이닝: 데이터를 분석해서 유익한 정보를 추출하는 작업
  • 데이터 기반 의사결정: 데이터를 토대로 더 나은 판단을 내리는 것
  • 머신러닝과 인공지능: 데이터에서 규칙성과 판단 기준을 찾아 미지의 영역을 예측하는 것

통계를 배우는 이유

데이터를 분석함에 있어 통계적 지식이 필요한 이유는 무엇일까?

우리가 통계를 배우는 이유는,

  1. 데이터를 수치적으로 요약할 수 있다
  2. 주어진 데이터를 이용해 미래를 수학적으로 예측할 수 있다

통계가 주는 이점은 우리가 데이터를 분석하는 이유와 잘 맞아떨어진다.

우리가 데이터를 분석하는,

  1. 이용자들에게 데이터를 수치, 시각적으로 요약해 정보를 제공한다
  2. 이용자들의 데이터를 통해 기호에 맞는 상품을 추천한다
  3. 미래의 주가를 예측해 이용자에게 더 나은 선택을 유도한다

통계적 분석 과정

그럼 우리는 어떤 과정을 통해 통계적 분석을 진행 할 수 있을까?

  1. DDA
  2. EDA
  3. CDA
  4. PDA

DDA(Descriptive Data Analysis)

  • 무슨 일이 생겼는지 알아보는 단계
  • 기술 통계에서 봤던 Central tendency, Dispersion, Distribution 을 확인한다

EDA(Exploratory Data Analysis)

  • 무슨 이유로 생겼는지 알아보는 단계
  • 어떤 일이 발생한 원인을 파악
  • 변수간 상관관계를 파악
  • 데이터를 탐색하고 논리적으로 가설을 세우고 가설을 검정할 수 있도록 데이터를 가공

CDA(Confirmatory Data Analysis)

  • 알아본 이유에 대해 가설을 세우고 검정해보는 단계
  • t검정, 카이제곱 검정, 분산분석(ANOVA) 등이 있다
가설 예시

- 비즈니스 의사결정
    - A 가격보다 B 가격으로 했을 때 매출이 더 올랐다
    - A, B, C, D 화면중에서 A 화면일 때 사용자들의 클릭률이 가장 높았다

- 피처 엔지니어링
    - 변수 A가 타겟 T에 영향을 준다
    - 변수 A의 Null 값은 의미가 없다

PDA(Predictive Data Analysis)

  • 검정 결과에 기반해 행동하는 단계
  • ex. 비즈니스 의사결정을 내린다
  • ex. 피처 엔지니어링을 파이프라인화하고 데이터를 모델링한다
  • ex. 머신러닝을 모델링 한다

어떤걸 분석할까

  • 모집단의 모수를 추정하고 싶은 경우
    • 점추정 -> 최대우도추정법(MLE), 최소제곱추정법(MSE) 등을 이용
    • 구간 추정
  • 차이가 있는지 검정
    • 차이 검정 -> 2개 이하의 그룹은 t검정, 3개 이상인 경우에는 ANOVA를 이용한 F검정
  • 변수간의 관계여부
    • 교차 분석
    • 상관 분석 -> 독립변수간 선형 관계 여부 확인
    • 회귀 분석 -> 독립변수와 종속 변수의 관계 모델링
  • 패턴
    • 데이터 마이닝
    • 비지도 학습
  • 예측
    • 머신러닝
시작 Statistics and Probability Series [Part2]: 기술통계

You may also like

See all statistics
07 Sep 2022 통계를 이용한 데이터 분석 [Part8]: 회귀와 예측
data_analytics
statistics

통계를 이용한 데이터 분석 [Part8]: 회귀와 예측

06 Sep 2022 Statistics and Probability Series [Part7]: 베이지안 통계
data_analytics
statistics

Statistics and Probability Series [Part7]: 베이지안 통계

06 Sep 2022 Statistics and Probability Series [Part6]: 추측 통계(2): 검정(Testing)
data_analytics
statistics

Statistics and Probability Series [Part6]: 추측 통계(2): 검정(Testing)

Jay Kim

Jay Kim

Web development, data engineering for human for the Earth. I share posts, free resources and inspiration.

Rest
Lifestyle
Hobby
Hobby
Hobby
Hobby
2025 © Jay's Cookbook. Crafted & Designed by Artem Sheludko.