일/Data Mining

R에서 Decision Tree 돌리기.

LEEHK 2013. 7. 9. 17:01

0. 환경 세팅.

 

* R 설치
 http://www.r-project.org/

 

* 패키지 설치하기

풀다운 메뉴에서 Packages -> Install Package(s) 해서 원하는 거 골라서 설치하면 됨. 네트웍 연결되어 있어야 함은 물론.

# 패키지 설치.

install.packages("RWeka")

install.packages("tree")

 

* Decision Tree 도움말
 http://127.0.0.1:13015/library/tree/html/tree.html

 

 

* 작업 디렉토리 확인 및 변경

getwd()

setwd("D:/R")

 

* 작업 공간 저장하기

save.image()

 


1. 데이터셋 가져오기

 

 tbl <- read.csv("D:/R/list.csv")

 

 > 해설.
 - read.csv : "" 꼭 써야함, 경로 표시에 \ 아니고 / 임. 첫줄에 변수명 넣었음.

 

 


2. 데이터셋 확인하기.

 

 tbl
 tbl[1]
 tbl[4:8]
 tbl["no"]
 tbl[c(1,2,4)]
 tbl[c("no","name")]

 

 > 해설.
 - tbl : print(tbl) 과 동일.
 - 각자 n번째 원소, 이름의 변수 데이터셋을 가리키는 방법.

 

 


3. 그래프 그리기

 

 plot(tbl["result"]) 
 plot(tbl[c("var1_name","var2_space")])
 plot(table(tbl["result"]))

 

 > 해설
 - plot : 산점도 그리기
 - table : 변수별 카운팅 후 히스토그램 그리려고~

 

 

 

4. Decision Tree 돌리기

 

 library(tree)

 tbl.ltr <- tree(result5 ~ var1_name+var2_space+var3_10min+var4_cvs+var5_cnf, tbl)
 tbl.ltr
 summary(tbl.ltr)
 plot(tbl.ltr);  text(tbl.ltr)


 > 해설.
 - result5 : 목표변수, var1~var5 : 독립변수, tbl : 데이터 벡터(테이블)
 - tbl.ltr, summary(tbl.ltr) : 트리 확인하기
 - plot(tbl.ltr);  text(tbl.ltr) : 트리 그리기