728x90
1.데이터 분석
데이터의 종류에 따라서 사용하는 분석도구가 달라진다.
데이터의 종류 | 자료구조 | 분석 도구 | |
단일변수 | 범주형 | 팩터 벡터 |
도수분포표 막대그래프 원그래프 |
수치형 | 벡터 | 평균,중앙값,분산,4분위수 히스토그램 선그래프 상자그림 |
|
다중변수 | 수치형 | 매트릭스 데이터프레임 |
산점도 상관계수 나무지도 방사형차트 |
2.단일변수 데이터 분석
(1)단일변수 범주형 데이터 분석
install.packages('carData')
library(carData)
#(1)데이터 준비
room.class<-TitanicSurvival$passengerClass
room.class
#(2)도수분포 계산
tbl<-table(room.class)
tbl
sum(tbl)
#(3)막대그래프 작성
barplot(tbl,main='선실별 탑승객',
xlab='선실등급',
ylab='탑승객수',
col=c('blue','green','yellow'))
#(3)원그래프 작성
tbl/sum(tbl)
par(mar(1,1,4,1))
pie(tbl,main='선실별 탑승객',
col=c('blue','green','yellow'))
par(mar(5.1,4.1,4.1,2.1))
(2)단일변수 수치형 데이터 분석
미국의 주별 고등학교 졸업률 분석하기
#(1)데이터 준비
grad<-state.x77[,'HS Grad'] #주별 졸업률
#(2)사분위수
summary(grad)
var(grad) #분산
sd(grad) #표준편차
#(3)히스토그램
hist(grad,main='주별 졸업률',
xlab='졸업률',
ylab='주의 개수',
col='orange')
#(4)상자그림
boxplot(grad,main='주별 졸업률',
col='orange')
#(5)졸업률이 가장 낮은 주
idx<-which(grad==min(grad))
grad[idx]
#(6)졸업률이 가장 높은 주
idx<-which(grad==max(grad))
grad[idx]
#(7)졸업률이 평균 이하인 주
idx<-which(grad<mean(grad))
grad[idx]
summary()함수는 사분위수에 최솟값(Min.), 평균(Mean), 최댓값(Max.)을 추가하여 나타낸다.
Min. 1st Qu. Median Mean 3rd Qu. Max.
37.80 48.05 53.25 53.11 59.15 67.30
3.다중변수 데이터 분석
(1)두 변수의 상관관계
온도와 기압간의 상관관계
#(1)데이터 확인
head(pressure)
#(2)산점도 작성
plot(pressure$temperature,
pressure$pressure,
main='온도와 기압',
xlab='온도(화씨)',
ylab='기압')
#(3)상관계수
cor(pressure$temperature,pressure$pressure)
상관계수를 보면 자동차 속도와 제동거리는 강한 양의 상관관계에 있다.
상관계수가 0.5이상이거나 -0.5이하이면 상관관계가 있다고 할 수 있다.
head(cars)
#Scatter Plot
plot(cars$speed, #X data
cars$dist, #Y data
main='Speed vs. Stop Dist.',
xlab='Speed',
ylab='Stop Distance')
#(3) Correlation Coefficient
cor(cars$speed, cars$dist)
#확인문제.DAAG 패키지에 포함된 carprice 데이터셋에서 자동차 가격(Price)과 시내 주행 연비(MPG,city)간의 상관관걔를 산점도와 산관계수를 통해서 알아보시오.
#(1)데이터 확인
head(carprice)
#(2)산점도 작성
plot(carprice$MPG.city,#시내주행연비
carprice$Price,#가격
main='MPG.city vs. Prcie',
xlab='연비',
ylab='가격')
#(3)상관계수
cor(carprice$MPG.city,carprice$Price)
음의 상관관계를 확인할 수 있다.
(1)다중변수 사이의 상관관계
#(1)데이터 확인
st<-data.frame(state.x77)
#(2)다중 산점도 작성
plot(st)
#(3)다중 상관계수
cor(st)
#확인문제.DAAG 패키지에 포함된 carprice 데이터셋에서 자동차 가격(Price), 100마일 주행에 필요한 연료량(gpm100), 시내 주행 연비(MPG.city), 고속도로 주행 연비(MPG.highway) 간의 상관관계를 다중 산점도와 다중 산관계수를 통해서 알아보고, 가장 상관도가 높은 두 변수를 찾으시오.
#(1)데이터 확인
tmp<-carprice[,c('Price','gpm100','MPG.city','MPG.highway')]
head(tmp)
#(2)다중 산점도
plot(tmp)
#(3)다중 상관계수
cor(tmp)
728x90
'기타 > R' 카테고리의 다른 글
[R]난생처음 R코딩&데이터 분석-8장 연습문제 (0) | 2021.11.21 |
---|---|
[R]SVM,KNN-Titanic (0) | 2021.11.19 |
[R]난생처음 R코딩&데이터 분석-8장 개념 (0) | 2021.11.05 |
[R]난생처음 R코딩&데이터 분석-6장 연습문제 (0) | 2021.10.14 |
[R]피보나치 수열 만들기 (0) | 2021.10.01 |