반응형
# 일변량(단일 변수?) 비시각화 탐색
## 요약통계량 확인하기
df.describe() # 수치형 칼럼 요약통계표(count, mean, std, min, 25%, 50%, 75%, max)
df.describe(include='all')
# 수치형이 아닌 칼럼도 요약통계표 보여줌, unique(고유한 데이터의 수, top(최빈값), freq( 최빈갓의 갯수)
## 빈도표 확인하기
df['airline'].value_counts()
# 다변량(변수 여러개?) 비시각화 탐색
## 상관계수 확인 : 두 변수 간의 선형 상관관계를 계량화한 수치, -1~1 사이 값, 0에 가까울수록 상관 없음
df.corr()
## 특정 컬럼만 지정하면 상관관계를 더 잘 파악할 수 있음(class가 economy인 좌석만 지정하면 남은 날짜와 가격 사이에 음의 상관관계를 가짐)
df_eco=df[(df['class']=='Economy')]
df_eco.corr()
##교차표 확인하기 : 범주형 데이터의 상관관계를 확인하는 방법(cf 상관계수는 수치형 데이터의 상관관계)
pd.crosstab(df['source_city'],df['departure_time'])
# 시각화로 데이터 탐색
'Tech' 카테고리의 다른 글
그룹화하기, 데이터프레임 병합하기 (0) | 2024.09.06 |
---|---|
불러오기, 원하는 컬럼만 가져오기, 범주형데이터 비교, 데이터 살펴보기, 데이터 선택하기, 추가/삭제/칼럼명변경/정렬 (0) | 2024.09.02 |
통계학 정리 2 (1) | 2024.08.30 |
통계학 정리 (1) | 2024.08.28 |
Ch8 로지스틱 회귀 (0) | 2024.06.27 |