데이터의 이해 - 비시각화/시각화 데이터 탐색
# 일변량(단일 변수?) 비시각화 탐색## 요약통계량 확인하기df.describe() # 수치형 칼럼 요약통계표(count, mean, std, min, 25%, 50%, 75%, max)df.describe(include='all') # 수치형이 아닌 칼럼도 요약통계표 보여줌, unique(고유한 데이터의 수, top(최빈값), freq( 최빈갓의 갯수) ## 빈도표 확인하기df['airline'].value_counts() # 다변량(변수 여러개?) 비시각화 탐색## 상관계수 확인 : 두 변수 간의 선형 상관관계를 계량화한 수치, -1~1 사이 값, 0에 가까울수록 상관 없음df.corr()## 특정 컬럼만 지정하면 상관관계를 더 잘 파악할 수 있음(..
2024. 9. 9.
불러오기, 원하는 컬럼만 가져오기, 범주형데이터 비교, 데이터 살펴보기, 데이터 선택하기, 추가/삭제/칼럼명변경/정렬
#데이터불러오기 import pandas as pd import numpy as np flight=pd.read_csv('./Clean_Dataset.csv', encoding='cp949') flight #원하는 컬럼만 가져와서 새로운 데이터로 저장하기 flight2=pd.read_csv('./Clean_Dataset.csv', index_col='stops', usecols=['stops','departure_time','arrival_time','destination_city']) flight2 #crosstab으로 범주형 데이터 2개를 비교 pd.crosstab(index=flight.source_city, columns=flight.arrival_time) #데이터 살펴보기 flight.head..
2024. 9. 2.