기타/R

[R]난생처음 R코딩&데이터 분석-10장 연습문제

stonesy 2021. 11. 22. 01:03
728x90

1.데이터 분석 단계에서 수집된 데이터를 분석이 가능한 형태로 정돈하는 과정을 무엇이라고 하는가?

데이터 정제/전처리

 

2.다음은 어떤 나무의 나뭇잎 길이를 측정한 데이터이다. 이 데이터를 분석하기 위한 가장 적당한 도구를 고르시오.

5.1, 6.0, 6.1, 6.2, 5.7, 5.9, 6.3, 5.7

①도수분포표

②히스토그램

③산점도

④원그래프

⑤상관계수

 

3.다음은 구내식당 업체 교체에 대한 찬반 여부를 조사한 데이터의 일부이다. 이 데이터를 분석하기 위한 가장 적당한 도구를 고르시오.

yes, no, no, yes, NA, yes, no, no, yes, no, yes, yes, NA

①도수분포표

②선그래프

③원그래프

④상자그름

⑤산점도

 

4.Ecdat 패키지에 포함된 Hdma 데이터셋에 대해 다음의 문제를 해결하기 위한 R 코드를 작성하시오.

(1)대출 신청자의 직업이 자영업인 경우와 아닌 경우의 빈도를 막대그래프로 나타내시오. 직업이 자영업인지 여부는 self열에 저장되어 있다.

Hdma=read.csv('Hdma.csv')
barplot(table(Hdma$self))

(2)대출 신청자가 미혼인 경우와 아닌 경우의 비율을 원 그래프로 나타내시오. 미혼 여부는 single열에 저장되어 있다.

pie(table(Hdma$single))

(3)대출 신청자가 속한 실업률(uria)데이터에 대해 다음 물음에 답하시오.

(3)-1.실업률의 분포를 상자그림으로 작성하시오.

(3)-2.데이터의 분포에서 정상 범위는 어디부터 어디까지인지 보이시오.

(3)-3.데이터의 분포에서 정상 범위를 벗어나는 값들은 몇 개인지를 보이시오.

boxplot(Hdma$uria)
boxplot.stats(Hdma$uria) #2.0~4.3
length((boxplot.stats(Hdma$uria))$out) #457개

(4)대출 승인과 거절에 대한 케이스(deny)별로 수입대비 주택유지비용 비율(hir)의 평균을 구하시오.

levels(factor(Hdma$deny))
idx<-which(Hdma$deny=="no")
mean(Hdma$hir[idx])
idx<-which(Hdma$deny=="yes")
mean(Hdma$hir[idx])

(5)(4)번의 결과를 볼 때 수입대비 주택유지비용 비율이 높으면 대출에 유리한지 불리한지를 판단하시오.

유리하다.

728x90