반응형

# 일변량(단일 변수?) 비시각화 탐색

## 요약통계량 확인하기

df.describe()                        # 수치형 칼럼 요약통계표(count, mean, std, min, 25%, 50%, 75%, max)

df.describe(include='all')     

# 수치형이 아닌 칼럼도 요약통계표 보여줌, unique(고유한 데이터의 수, top(최빈값), freq( 최빈갓의 갯수)

 

## 빈도표 확인하기

df['airline'].value_counts()

 

 

# 다변량(변수 여러개?) 비시각화 탐색

## 상관계수 확인 : 두 변수 간의 선형 상관관계를 계량화한 수치, -1~1 사이 값, 0에 가까울수록 상관 없음

df.corr()

## 특정 컬럼만 지정하면 상관관계를 더 잘 파악할 수 있음(class가 economy인 좌석만 지정하면 남은 날짜와 가격 사이에 음의 상관관계를 가짐)

df_eco=df[(df['class']=='Economy')]

df_eco.corr()

 

##교차표 확인하기 : 범주형 데이터의 상관관계를 확인하는 방법(cf 상관계수는 수치형 데이터의 상관관계)

pd.crosstab(df['source_city'],df['departure_time'])

 

 

# 시각화로 데이터 탐색

+ Recent posts