2017년 5월 1일 월요일

데이터 마이닝 실습

데이터 마이닝 실습
데이터 마이닝 실습.hwp


목차
1. 모델 선택 기준
-Validation Set의 오분류율
2. 모델 선택(Seed1)
-Tree
3. 분석(Seed1)

4. 평가(Seed1)
- Regression / Tree / Neural Network
5. 분석(Seed3)

6. 모델 선택(Seed3)
-Tree
7. 평가(Seed3)
- Regression / Tree / Neural Network


본문

1. 모델 선택 기준

1) 로지스틱 회귀분석
해당 자료는 타겟 변수가 당뇨병의 여부를 나타내는 범주형이다. 따라서 logstic 회귀분석을 통해 변수를 선택한다. 변수를 선택하는 방법으로는 Stepwise 방법을 사용한다.
변수 선택의 방법에는 Forward. Backward, Stepwise가 있다. Forward의 경우에는 한 번 선택된 변수가 제거되지 않는 단점이 존재하고, Backward는 한 번 제외된 변수의 재선택이 불가하고 변수 개수가 많을 경우 다루기 힘들다는 단점이 존재한다. 따라서 Forward 와 Backward 의 방법을 동시에 갖는 매단계마다 선택과 제거를 반복하는 Stepwise 방법을 사용하기로 한다.

2) Tree
Tree를 통한 분석에서 모델은 몇 가지 방법에 의해 평가되는데 그 기준이 되는 방법에는
Entropy 지수, Gini 지수, 카이제곱 통계량, Deviance 등 이 있다. 어떤 기준을 선택하여 Tree 분석을 할지 결정키 위해 위의 기준들을 이용해 반복적으로 오분류율을 구해보았다.

키워드
데이터, 마이닝, 실습

댓글 없음:

댓글 쓰기