기타/R

[R]난생처음 R코딩&데이터 분석-10장 개념

stonesy 2021. 11. 18. 21:11
728x90

1.데이터 분석

데이터의 종류에 따라서 사용하는 분석도구가 달라진다.

데이터의 종류 자료구조 분석 도구
단일변수 범주형 팩터
벡터
도수분포표
막대그래프
원그래프
수치형 벡터 평균,중앙값,분산,4분위수
히스토그램
선그래프
상자그림
다중변수 수치형 매트릭스
데이터프레임
산점도
상관계수
나무지도
방사형차트

2.단일변수 데이터 분석

(1)단일변수 범주형 데이터 분석

install.packages('carData')
library(carData)

#(1)데이터 준비
room.class<-TitanicSurvival$passengerClass
room.class

#(2)도수분포 계산
tbl<-table(room.class)
tbl
sum(tbl)

#(3)막대그래프 작성
barplot(tbl,main='선실별 탑승객',
        xlab='선실등급',
        ylab='탑승객수',
        col=c('blue','green','yellow'))
#(3)원그래프 작성
tbl/sum(tbl)
par(mar(1,1,4,1))
pie(tbl,main='선실별 탑승객',
    col=c('blue','green','yellow'))
par(mar(5.1,4.1,4.1,2.1))

(2)단일변수 수치형 데이터 분석

미국의 주별 고등학교 졸업률 분석하기

#(1)데이터 준비
grad<-state.x77[,'HS Grad'] #주별 졸업률
#(2)사분위수
summary(grad)
var(grad) #분산
sd(grad) #표준편차
#(3)히스토그램
hist(grad,main='주별 졸업률',
     xlab='졸업률',
     ylab='주의 개수',
     col='orange')
#(4)상자그림
boxplot(grad,main='주별 졸업률',
        col='orange')
#(5)졸업률이 가장 낮은 주
idx<-which(grad==min(grad))
grad[idx]

#(6)졸업률이 가장 높은 주
idx<-which(grad==max(grad))
grad[idx]

#(7)졸업률이 평균 이하인 주
idx<-which(grad<mean(grad))
grad[idx]

summary()함수는 사분위수에 최솟값(Min.), 평균(Mean), 최댓값(Max.)을 추가하여 나타낸다.

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  37.80   48.05   53.25   53.11   59.15   67.30 

 

 

3.다중변수 데이터 분석

(1)두 변수의 상관관계

온도와 기압간의 상관관계

#(1)데이터 확인
head(pressure)

#(2)산점도 작성
plot(pressure$temperature,
     pressure$pressure,
     main='온도와 기압',
     xlab='온도(화씨)',
     ylab='기압')

#(3)상관계수
cor(pressure$temperature,pressure$pressure)

상관계수를 보면 자동차 속도와 제동거리는 강한 양의 상관관계에 있다.

상관계수가 0.5이상이거나 -0.5이하이면 상관관계가 있다고 할 수 있다.

 

head(cars)

#Scatter Plot
plot(cars$speed, #X data
     cars$dist, #Y data
     main='Speed vs. Stop Dist.',
     xlab='Speed',
     ylab='Stop Distance')

#(3) Correlation Coefficient
cor(cars$speed, cars$dist)

#확인문제.DAAG 패키지에 포함된 carprice 데이터셋에서 자동차 가격(Price)과 시내 주행 연비(MPG,city)간의 상관관걔를 산점도와 산관계수를 통해서 알아보시오.

#(1)데이터 확인
head(carprice)
#(2)산점도 작성
plot(carprice$MPG.city,#시내주행연비
     carprice$Price,#가격
     main='MPG.city vs. Prcie',
     xlab='연비',
     ylab='가격')
#(3)상관계수
cor(carprice$MPG.city,carprice$Price)

음의 상관관계를 확인할 수 있다.

(1)다중변수 사이의 상관관계

#(1)데이터 확인
st<-data.frame(state.x77)
#(2)다중 산점도 작성
plot(st)
#(3)다중 상관계수
cor(st)

#확인문제.DAAG 패키지에 포함된 carprice 데이터셋에서 자동차 가격(Price), 100마일 주행에 필요한 연료량(gpm100), 시내 주행 연비(MPG.city), 고속도로 주행 연비(MPG.highway) 간의 상관관계를 다중 산점도와 다중 산관계수를 통해서 알아보고, 가장 상관도가 높은 두 변수를 찾으시오.

#(1)데이터 확인
tmp<-carprice[,c('Price','gpm100','MPG.city','MPG.highway')]
head(tmp)
#(2)다중 산점도
plot(tmp)
#(3)다중 상관계수
cor(tmp)

 

728x90