1. 예측방식 유형
ㅇ 비지도학습(Unsupervised Learning)
- 군집화/세분화(Clustering) - 요인분석(Factor Analysis), 판별분석(Discriminant Analysis)
- 연관성 분석(Association Analysis) - 지지도(Support), 신뢰도(Confidence), 향상도(Lift)
ㅇ 지도학습(Supervised Learning)
- 회귀분석(Regression Analysis) - 상관분석(Correlation), 분산분석(ANOVA)
- 분류식별분석(Calssification) - 카이제곱검증
2. 분류식별 검증방법
ㅇ 전체 데이터를 학습용(Training)과 검증용(Test)로 무작위 추출(Random Sampling)
- 학습용 데이터 : 70% 정도, 패턴 파악/학습으로 예측 성능 향상
- 검증용 데이터 : 30% 정도, 학습한 패턴이 나오는지 검증하는 용도
1. 분포를 나타내는 값 : 분산, 표준편차, 범위, 사분위수, 백분위수
ㅇ 편차 : 각 데이터의 값 - 평균값
편차의 합은 항상 0
ㅇ 분산 : 편차 제곱의 평균
산식 = 편차 제곱의 합 / 데이터의 갯수
분산 자체로 절대적 의미를 갖지 않음, 산포의 크고 작음을 나타냄
ㅇ 표준편차 : 분산의 제곱근
산식 = SQRT(분산)
각 데이터들이 평균으로부터 떨어진 평균거리
ㅇ 범위 : 최대값과 최소값의 차이
ㅇ 사분위수 : 작은 값으로 부터 25%까지를 1사분위수, 50%를 2사분위수, 75%를 3사분위수
2. 그래프
ㅇ 막대그래프
ㅇ 꺽은선 그래프 : 시간의 흐름에 따른 변화/경향 파악에 적합
ㅇ 혼합형 그래프 : 막대와 꺽은선 혼합 등
ㅇ 띠 그래프 : 전체 대이터에 대한 각 데이터의 크기를 띠의 길이에 비례하여 표시
ㅇ 원 그래프 : 띠 그래프와 같이 전체 데이터에 대한 각 데이터의 크기를 비율로 표시
ㅇ 산포도 : 두 항목간의 상관관계 파악을 위한 그래프
ㅇ 도수분포표와 히스토그램
- 도수분포표 : 각 데이터의 개수를 정리한 표, 최소~최대값 사이에 일정한 갯수의 계급을 정하고, 각 계급에 속하는 데이터 도수를 정리
- 히스토그램 : 도수분포표를 막대그래프로 표현한 것, 계급을 가로축, 도수를 세로축으로 표시하고, 계급의 크기를 가로축에 표현할 수 있음
ㅇ 파레토차트 : 상위 20%의 고객이 전체 매출의 80%를 차지한다는 법칙, 누적분포비율을 선그래프로, 각 항목 값을 막대그래프로 혼합해 그리는 것
3. 가설검정과 통계적 추정
3-1. 점추정과 구간추정
3-1-가. 표본조사 개념
ㅇ 대상모집단(Target Population, 전체)의 일부 또는 전체인 표본모집단(sampled population)의 조건을 정의하고
ㅇ 표본모집단으로부터 표본(sample)을 추출하고 조사를 진행하여 얻어진 표본의 특성치인 통계량으로
ㅇ 대상모집단의 특성인 모수를 추정 및 검정하는 절차
3-1-나. 점추정과 구간추정
ㅇ 점추정 : 표본을 통해 모수를 추정할 때 추출된 표본을 이용하여 하나의 수치로 모수를 추정하는 것
예) 고등학생 평균키 : 여자는 161, 남자는 174
- 평균, 표준편차, 중위수 등을 추정, 추측한 모수에 신뢰도를 나타낼 수 없음
ㅇ 구간추정 : 모수의 값이 속할 것으로 기대되는 일정한 범위를 이용하여 모수를 추정하는 것
- 점추정의 신뢰도를 보완하기 위해 구간추정을 사용
- 모수 추정치와 신뢰도를 함께 구할 수 있음
3-2. 신뢰구간
3-2-가. 신뢰구간의 이해
ㅇ 일정한 확률범위 내에서 모수의 값이 포함된 가능성이 있는 범위, 상한값과 하한값으로 구간을 표시
ㅇ 표본오차를 고려하여 모집단 평균 뮤가 포함될 확률구간
- 표본오차 : 표본조사 시 표본 선택 변화에 따라 발생하는 오차
예) 95% 신뢰수준에서 신뢰구간이 (A, B)라면 모수가 A ~ B 구간에 포함될 확률이 95%라는 의미
3-2-나. 신뢰구간의 계산
ㅇ 90% 신뢰수준에서의 신뢰구간 : 표본의 평균 +- 1.645 x (표준편차/표본수의 제곱근)
ㅇ 95% 신뢰수준에서의 신뢰구간 : 표본의 평균 +- 1.96 x (표준편차/표본수의 제곱근)
ㅇ 99% 신뢰수준에서의 신뢰구간 : 표분의 평균 +- 2.575 x (표준편차/표본수의 제곱근)
3-3. 가설 검정과 유의수준
3-3-가. 가설검정의 이해
ㅇ 가설검정 : 어떤 집단에 대해 어떤 가설을 설정하고, 검토하는 통계적 추론
- 귀무가설(Null Hypothesis) : 효과가 없다, 차이가 없다, 서로 다르지 않다
- 대립가설(Alternative Hypothesis) : 효과가 있다, 차이가 있다, 서로 다르다(연구의 대상)
귀무가설과 대립가설을 동시에 설정하고 귀무가설을 기각할 수 있으면 대립가설이 맞다는 의미임
ㅇ 귀무가설의 기각여부 판단 방법
- 유의확률(p-value, significance probability) 확인
- 검정통계량과 기각역(critical region, rejection region) 확인
3-3-나. 가설검정의 오류
ㅇ 가설검정 오류란 : 표본의 특성치를 사용하는 과정에서 확률적 오류가 발생함, 표본에서 모수를 추정할때 발생, 귀무가설의 채택/기각 중 하나를 선택할 때 오류 범할 가능성
ㅇ 가설검정 오류의 종류
- 1종 : 귀무가설이 참인데 기각하는 오류
- 2종 : 귀무가설이 거짓인데 채택하는 오류
ㅇ 유의확률 : 1종 오류를 저지를 확률(p값) / 유의수준 : 1종 오류가 발생할 최대 확률
'Tech' 카테고리의 다른 글
불러오기, 원하는 컬럼만 가져오기, 범주형데이터 비교, 데이터 살펴보기, 데이터 선택하기, 추가/삭제/칼럼명변경/정렬 (0) | 2024.09.02 |
---|---|
통계학 정리 2 (1) | 2024.08.30 |
Ch8 로지스틱 회귀 (0) | 2024.06.27 |
ch8. 사례기반 '''선형회귀모델''' (0) | 2024.06.26 |
ch8. 지도학습 AI 모델링 (0) | 2024.06.25 |