반응형

1. 예측방식 유형

   ㅇ 비지도학습(Unsupervised Learning)

      - 군집화/세분화(Clustering) - 요인분석(Factor Analysis), 판별분석(Discriminant Analysis)

      - 연관성 분석(Association Analysis) - 지지도(Support), 신뢰도(Confidence), 향상도(Lift)

   ㅇ 지도학습(Supervised Learning)

      - 회귀분석(Regression Analysis) - 상관분석(Correlation), 분산분석(ANOVA)

      - 분류식별분석(Calssification) - 카이제곱검증

2. 분류식별 검증방법 

   ㅇ 전체 데이터를 학습용(Training)과 검증용(Test)로 무작위 추출(Random Sampling)

      - 학습용 데이터 : 70% 정도, 패턴 파악/학습으로 예측 성능 향상

      - 검증용 데이터 : 30% 정도, 학습한 패턴이 나오는지 검증하는 용도

 

1. 분포를 나타내는 값 : 분산, 표준편차, 범위, 사분위수, 백분위수

ㅇ 편차 : 각 데이터의 값 - 평균값    

     편차의 합은 항상 0

ㅇ 분산 : 편차 제곱의 평균

     산식 = 편차 제곱의 합 / 데이터의 갯수

     분산 자체로 절대적 의미를 갖지 않음, 산포의 크고 작음을 나타냄

ㅇ 표준편차 : 분산의 제곱근

     산식 = SQRT(분산)

     각 데이터들이 평균으로부터 떨어진 평균거리

ㅇ 범위 : 최대값과 최소값의 차이

ㅇ 사분위수 : 작은 값으로 부터 25%까지를 1사분위수, 50%를 2사분위수, 75%를 3사분위수

 

2. 그래프

ㅇ 막대그래프

ㅇ 꺽은선 그래프 : 시간의 흐름에 따른 변화/경향 파악에 적합

ㅇ 혼합형 그래프 : 막대와 꺽은선 혼합 등

ㅇ 띠 그래프 : 전체 대이터에 대한 각 데이터의 크기를 띠의 길이에 비례하여 표시

ㅇ 원 그래프 : 띠 그래프와 같이 전체 데이터에 대한 각 데이터의 크기를 비율로 표시

ㅇ 산포도 : 두 항목간의 상관관계 파악을 위한 그래프

ㅇ 도수분포표와 히스토그램

   - 도수분포표 : 각 데이터의 개수를 정리한 표, 최소~최대값 사이에 일정한 갯수의 계급을 정하고, 각 계급에 속하는 데이터 도수를 정리

   - 히스토그램 : 도수분포표를 막대그래프로 표현한 것, 계급을 가로축, 도수를 세로축으로 표시하고, 계급의 크기를 가로축에 표현할 수 있음

ㅇ 파레토차트 : 상위 20%의 고객이 전체 매출의 80%를 차지한다는 법칙, 누적분포비율을 선그래프로, 각 항목 값을 막대그래프로 혼합해 그리는 것

 

3. 가설검정과 통계적 추정

3-1. 점추정과 구간추정

3-1-가. 표본조사 개념

   ㅇ 대상모집단(Target Population, 전체)의 일부 또는 전체인 표본모집단(sampled population)의 조건을 정의하고

   ㅇ 표본모집단으로부터 표본(sample)을 추출하고 조사를 진행하여 얻어진 표본의 특성치인 통계량으로 

   ㅇ 대상모집단의 특성인 모수를 추정 및 검정하는 절차

3-1-나. 점추정과 구간추정

   ㅇ 점추정 : 표본을 통해 모수를 추정할 때 추출된 표본을 이용하여 하나의 수치로 모수를 추정하는 것

     예) 고등학생 평균키 : 여자는 161, 남자는 174

     - 평균, 표준편차, 중위수 등을 추정, 추측한 모수에 신뢰도를 나타낼 수 없음

   ㅇ 구간추정 : 모수의 값이 속할 것으로 기대되는 일정한 범위를 이용하여 모수를 추정하는 것

     - 점추정의 신뢰도를 보완하기 위해 구간추정을 사용

     - 모수 추정치와 신뢰도를 함께 구할 수 있음

 

3-2. 신뢰구간

3-2-가. 신뢰구간의 이해

   ㅇ 일정한 확률범위 내에서 모수의 값이 포함된 가능성이 있는 범위, 상한값과 하한값으로 구간을 표시

   ㅇ 표본오차를 고려하여 모집단 평균 뮤가 포함될 확률구간

       - 표본오차 : 표본조사 시 표본 선택 변화에 따라 발생하는 오차

   예) 95% 신뢰수준에서 신뢰구간이 (A, B)라면 모수가 A ~ B 구간에 포함될 확률이 95%라는 의미

3-2-나. 신뢰구간의 계산

   ㅇ 90% 신뢰수준에서의 신뢰구간 : 표본의 평균 +- 1.645 x (표준편차/표본수의 제곱근)

   ㅇ 95% 신뢰수준에서의 신뢰구간 : 표본의 평균 +- 1.96 x (표준편차/표본수의 제곱근)

   ㅇ 99% 신뢰수준에서의 신뢰구간 : 표분의 평균 +- 2.575 x (표준편차/표본수의 제곱근)

 

3-3. 가설 검정과 유의수준

3-3-가. 가설검정의 이해

   ㅇ 가설검정 : 어떤 집단에 대해 어떤 가설을 설정하고, 검토하는 통계적 추론

      - 귀무가설(Null Hypothesis) : 효과가 없다, 차이가 없다, 서로 다르지 않다

      - 대립가설(Alternative Hypothesis) : 효과가 있다, 차이가 있다, 서로 다르다(연구의 대상)

    귀무가설과 대립가설을 동시에 설정하고 귀무가설을 기각할 수 있으면 대립가설이 맞다는 의미임

   ㅇ 귀무가설의 기각여부 판단 방법

      - 유의확률(p-value, significance probability) 확인

      - 검정통계량과 기각역(critical region, rejection region) 확인

3-3-나. 가설검정의 오류

   ㅇ 가설검정 오류란 : 표본의 특성치를 사용하는 과정에서 확률적 오류가 발생함, 표본에서 모수를 추정할때 발생, 귀무가설의 채택/기각 중 하나를 선택할 때 오류 범할 가능성

   ㅇ 가설검정 오류의 종류

      - 1종 : 귀무가설이 참인데 기각하는 오류

      - 2종 : 귀무가설이 거짓인데 채택하는 오류

   ㅇ 유의확률 : 1종 오류를 저지를 확률(p값) / 유의수준 : 1종 오류가 발생할 최대 확률

 

 

 

 

+ Recent posts