머신러닝 로드맵
https://dbourke.link/mlmap
해당 로드맵에 대한 설명
https://www.youtube.com/watch?v=pHiMN_gy9mk
'빅데이타 > DATA분석' 카테고리의 다른 글
데이터 분석을 위한 R(1) (0) | 2018.07.04 |
---|
머신러닝 로드맵
https://dbourke.link/mlmap
해당 로드맵에 대한 설명
https://www.youtube.com/watch?v=pHiMN_gy9mk
데이터 분석을 위한 R(1) (0) | 2018.07.04 |
---|
1개월간 공부한 R에 사용방법 정리.
R에 내장된 데이터
Iris, BOD
데이터프레임(dataframe)구조 파악하기 => str(iris)
아래는 150개의 관측치(observation)가 있고 5개의 변수가 있다는 정보를 보여준다.
4개의 변수는 number형태이고
1개의 변수는 factor이다.
> str(iris)
'data.frame': 150 obs. of 5 variables:
$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
$ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
$ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
$ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
데이터 일부확인하기
상위5개, 하위5개 보기
> head(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
> tail(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
145 6.7 3.3 5.7 2.5 virginica
146 6.7 3.0 5.2 2.3 virginica
147 6.3 2.5 5.0 1.9 virginica
148 6.5 3.0 5.2 2.0 virginica
149 6.2 3.4 5.4 2.3 virginica
150 5.9 3.0 5.1 1.8 virginica
데이터에 대한 summary로 자료의 특성 파악하기
> summary(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50
Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
cbind() 함수를 사용해 두 데이터를 병합한 데이터프레임 생성해보기
먼저 행의 개수가(observation) 일치한 데이터프레임이어야 합니다.
내장 데이터프레임 BOD, iris가공해서 진행
> iris2 <- head(iris)
> str(BOD)
'data.frame': 6 obs. of 2 variables:
$ Time : num 1 2 3 4 5 7
$ demand: num 8.3 10.3 19 16 15.6 19.8
- attr(*, "reference")= chr "A1.4, p. 270"
> str(iris2)
'data.frame': 6 obs. of 5 variables:
$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4
$ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9
$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7
$ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4
$ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1
> iris2BOD <- cbind(iris2, BOD)
> show(iris2BOD)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species Time demand
1 5.1 3.5 1.4 0.2 setosa 1 8.3
2 4.9 3.0 1.4 0.2 setosa 2 10.3
3 4.7 3.2 1.3 0.2 setosa 3 19.0
4 4.6 3.1 1.5 0.2 setosa 4 16.0
5 5.0 3.6 1.4 0.2 setosa 5 15.6
6 5.4 3.9 1.7 0.4 setosa 7 19.8
# 데이터 정비
#iris2BOD 7개의 변수가 있는 데이터를 5개의 변수로 해서 새데이타프레임 생성
#즉, Sepal.Length, Sepal.Width, Species, Time, demand변수를 가진 iris2BOD2 데이터프레임생성하기
> iris2BOD2 <- iris2BOD[,c("Sepal.Length", "Sepal.Width", "Species", "Time", "demand")]
> show(iris2BOD2)
Sepal.Length Sepal.Width Species Time demand
1 5.1 3.5 setosa 1 8.3
2 4.9 3.0 setosa 2 10.3
3 4.7 3.2 setosa 3 19.0
4 4.6 3.1 setosa 4 16.0
5 5.0 3.6 setosa 5 15.6
6 5.4 3.9 setosa 7 19.8
패키지 사용시
> library(ggplot2)
로 라이브러리에 추가하고 진행.