1.데이터 분석 단계에서 수집된 데이터를 분석이 가능한 형태로 정돈하는 과정을 무엇이라고 하는가?
데이터 정제/전처리
2.다음은 어떤 나무의 나뭇잎 길이를 측정한 데이터이다. 이 데이터를 분석하기 위한 가장 적당한 도구를 고르시오.
5.1, 6.0, 6.1, 6.2, 5.7, 5.9, 6.3, 5.7
①도수분포표
②히스토그램
③산점도
④원그래프
⑤상관계수
3.다음은 구내식당 업체 교체에 대한 찬반 여부를 조사한 데이터의 일부이다. 이 데이터를 분석하기 위한 가장 적당한 도구를 고르시오.
yes, no, no, yes, NA, yes, no, no, yes, no, yes, yes, NA
①도수분포표
②선그래프
③원그래프
④상자그름
⑤산점도
4.Ecdat 패키지에 포함된 Hdma 데이터셋에 대해 다음의 문제를 해결하기 위한 R 코드를 작성하시오.
(1)대출 신청자의 직업이 자영업인 경우와 아닌 경우의 빈도를 막대그래프로 나타내시오. 직업이 자영업인지 여부는 self열에 저장되어 있다.
Hdma=read.csv('Hdma.csv')
barplot(table(Hdma$self))
(2)대출 신청자가 미혼인 경우와 아닌 경우의 비율을 원 그래프로 나타내시오. 미혼 여부는 single열에 저장되어 있다.
pie(table(Hdma$single))
(3)대출 신청자가 속한 실업률(uria)데이터에 대해 다음 물음에 답하시오.
(3)-1.실업률의 분포를 상자그림으로 작성하시오.
(3)-2.데이터의 분포에서 정상 범위는 어디부터 어디까지인지 보이시오.
(3)-3.데이터의 분포에서 정상 범위를 벗어나는 값들은 몇 개인지를 보이시오.
boxplot(Hdma$uria)
boxplot.stats(Hdma$uria) #2.0~4.3
length((boxplot.stats(Hdma$uria))$out) #457개
(4)대출 승인과 거절에 대한 케이스(deny)별로 수입대비 주택유지비용 비율(hir)의 평균을 구하시오.
levels(factor(Hdma$deny))
idx<-which(Hdma$deny=="no")
mean(Hdma$hir[idx])
idx<-which(Hdma$deny=="yes")
mean(Hdma$hir[idx])
(5)(4)번의 결과를 볼 때 수입대비 주택유지비용 비율이 높으면 대출에 유리한지 불리한지를 판단하시오.
유리하다.
'기타 > R' 카테고리의 다른 글
[R]난생처음 R코딩&데이터 분석-11장 연습문제 (0) | 2021.11.22 |
---|---|
[R]난생처음 R코딩&데이터 분석-11장 개념 (0) | 2021.11.22 |
[R]난생처음 R코딩&데이터 분석-9장 연습문제 (0) | 2021.11.21 |
[R]난생처음 R코딩&데이터 분석-8장 연습문제 (0) | 2021.11.21 |
[R]SVM,KNN-Titanic (0) | 2021.11.19 |