https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=257831838&start=slayer
난생처음 R 코딩 & 데이터 분석
168개의 코드 예제를 기반으로 프로그래밍 기초부터 데이터 분석까지 다루며, R에서 사용하는 문법을 최대한 쉽게 설명하고 있다. 또한 4단계 반복 학습 시스템을 통해 프로그래밍 감각을 제대로
www.aladin.co.kr
01 데이터 분석 단계에서 수집된 데이터를 분석이 가능한 형태로 정돈하는 과정을 무엇이라고 하는가?
데이터 전처리(정제) 과정
02 다음은 어떤 나무의 나뭇잎 길이를 측정한 데이터이다. 이 데이터를 분석하기 위한 가장 적당한 도구를 고르시오.
② 히스토그램
03 다음은 구내식당 업체 교체에 대한 찬반 여부를 조사한 데이터의 일부이다. 이 데이터를 분석하기 위한 가장 적당한 도구를 고르시오.
① 도수분포표
04 Ecdat 패키지에 포함된 Hdma 데이터셋에 대해 다음의 문제를 해결하기 위한 R 코드를 작성하시오.
# Ecdat 패키지 설치 및 로드
install.packages('Ecdat')
library(Ecdat)
# Hdma 데이터셋 로드
data('Hdma')
(1) 대출 신청자의 직업이 자영업자인 경우와 아닌 경우의 빈도를 막대그래프로 나타내시오. 직업이 자영업자인지 여부는 self 열에 저장되어 있다.
# self 도수분포
freq_self <- table(Hdma$self)
# 막대그래프
barplot(freq_self,
main='자영업자 여부',
col=c('red', 'blue')
)
(2) 대출 신청자가 미혼인 경우와 아닌 경우의 비율을 원그래프로 나타내시오. 미혼 여부는 single 열에 저장되어 있다.
# single 도수분포
freq_single <- table(Hdma$single)
freq_single
# 원 그래프
pie(freq_single,
main='혼인 여부',
col=c('red', 'blue')
)
(3) 대출 신청자가 속한 직업군의 실업률(uria) 데이터에 대해 다음 물음에 답하시오.
# ① 실업률의 분포를 상자그림으로 작성하시오.
boxplot(Hdma$uria,
main='실업률 분포'
)
# ② 데이터의 분포에서 정상 범위는 어디부터 어디까지인지를 보이시오.
stats <- boxplot.stats(Hdma$uria)$stats
cat("Min:", stats[1], "\n")
cat("Q1:", stats[2], "\n")
cat("Median:", stats[3], "\n")
cat("Q3:", stats[4], "\n")
cat("Max:", stats[5], "\n")
# ③ 데이터의 분포에서 정상 범위를 벗어나는 값들은 몇 개인지를 보이시오.
out <- boxplot.stats(Hdma$uria)$out
cat("Number of outlier :", length(out),'\n')
(4) 대출 승인과 거절에 대한 케이스(deny)별로 수입대비 주택유지비용 비율(hir)의 평균을 구하시오.
# 인덱스
no <- which(Hdma$deny == 'no')
yes <- which(Hdma$deny == 'yes')
# 평균
avg_no <- mean(Hdma[no, 'hir'])
avg_yes <- mean(Hdma[yes, 'hir'])
(5) (4)번의 결과를 볼 때 수입대비 주택유지비용 비율이 높으면 대출에 유리한지 불리한지를 판단하시오.
- 대출 승인의 hist 평균은 0.2902124, 거절의 hist 평균은 0.2506052이다.
- 대출 승인이 된 경우의 hist 평균이 더 높았는데, 이는 hist 비율이 높은 사람들이 대출을 받기더 유리한 조건임을 나타낸다(수입 대비 주택유지비용 비율이 높다면, 대출 상환 능력이 낮다고 판단되기에, no 쪽이 평균 비율이 더 높을 것이라 예상했는데, 결과가 예상 밖이라... 정확한 해석이 맞는지 고민이되네요).
'R' 카테고리의 다른 글
[Chapter 09: 연습문제] 난생처음 R 코딩 & 데이터 분석 (1) | 2024.06.09 |
---|---|
[Chapter 08: 연습문제] 난생처음 R 코딩 & 데이터 분석 (1) | 2024.06.08 |
[Chapter 07: 연습문제] 난생처음 R 코딩 & 데이터 분석 (1) | 2024.04.18 |
[Chapter 06: 연습문제] 난생처음 R 코딩 & 데이터 분석 (0) | 2024.04.17 |
[Chapter 05: 연습문제] 난생처음 R 코딩 & 데이터 분석 (0) | 2024.04.15 |