Jay's Cookbook
Menu
  • Tags
  • Categories
  • Projects
Computer Science
OS
Network
Data Structure
Algorithm
Language
Code Architecture
Python
Javascript
Typescript
Java
Backend
Backend Theory
TypeORM
Node.js
NestJS
FastAPI
Frontend
HTML/CSS
React
Next.js
Data Engineering
DE Theory
MySQL
MongoDB
Elastic
Redis
Kafka
Spark
Airflow
AI
Basic
Pytorch
NLP
Computer Vision
Data Analytics
Statistics
Pandas
Matplotlib
DevOps
Git
Docker
Kubernetes
AWS
Pandas Series [Part2] 판다스 EDA
data_analytics
pandas

Pandas Series [Part2] 판다스 EDA

Jay Kim
Jay Kim 20 Jan 2022
Pandas Series [Part1] 판다스 기초 Pandas Series [Part3] 판다스 데이터 부분 추출

Table of Contents

  • Exploratory Data Analysis
    • 데이터 샘플
    • 데이터 길이
    • 데이터 컬럼별 특성
    • 데이터 통계적 특성
    • 데이터 유니크
    • 데이터 빈도수
    • 데이터 정렬

Exploratory Data Analysis

데이터 샘플

df.head(3)

df.sample(3)

데이터 길이

len(df)

데이터 컬럼별 특성

df.info()

데이터 통계적 특성

df.describe()

df.describe(include=['object', pd.Categorical])

df.describe(percentiles=[0.01, 0.5, 0.99])

데이터 유니크

df.nunique()

df['ticker'].nunique()
------------------------
681
df['ticker'].unique()

데이터 빈도수

df.head(10)

df['Sector'].value_counts()

df['Sector'].value_counts(normalize=True)

데이터 정렬

df.head(3)

# 매출액(억원) 에 대해서 가장 큰 값 5개를 desceding order로 추출 (전체를 정렬하지 않음)
df.nlargest(5, '매출액(억원)')

# 5개에서 PER(배) 가장 작은 값 3개를 desceding order로 추출
df.nlargest(5, '매출액(억원)').nsmallest(3, 'PER(배)')

# 매출액(억원)에 대해서 전체 데이터 정렬
df.sort_values('매출액(억원)', ascending=False).head(3)

# 매출액(억원)에 대해서 내림차순 정렬한 후, 그 상태에서 매출액(억원)이 같은 데이터끼리 PER(배)에 대해 오름차순 정렬
# 이런 여러 컬럼에 대한 정렬이 의미를 가지려면 정렬하는 앞의 컬럼들이 범주형 데이터여야 한다
# ex. [계열사, 매출액] 이런식으로
df.sort_values(['매출액(억원)', 'PER(배)'], ascending=[False, True]).head(3)

df.sort_index(inplace=True).head(3)

df.index.is_monotonic_increasing
----------------------------------
True
Pandas Series [Part1] 판다스 기초 Pandas Series [Part3] 판다스 데이터 부분 추출

You may also like

See all pandas
21 Jan 2022 Pandas Series [Part10]: 주피터 노트북에서 시각화를 위한 대시보드 만들기
data_analytics
pandas

Pandas Series [Part10]: 주피터 노트북에서 시각화를 위한 대시보드 만들기

20 Jan 2022 Pandas Series [Part7] 판다스 시계열 데이터
data_analytics
pandas

Pandas Series [Part7] 판다스 시계열 데이터

20 Jan 2022 Pandas Series [Part6] 판다스 조인
data_analytics
pandas

Pandas Series [Part6] 판다스 조인

Jay Kim

Jay Kim

Web development, data engineering for human for the Earth. I share posts, free resources and inspiration.

Rest
Lifestyle
Hobby
Hobby
Hobby
Hobby
2025 © Jay's Cookbook. Crafted & Designed by Artem Sheludko.