'빅데이타/DATA분석' 카테고리의 글 목록

빅데이타/DATA분석

머신러닝 로드맵 2020.08.04 2
데이터 분석을 위한 R(1) 2018.07.04

머신러닝 로드맵

2020. 8. 4. 22:07

머신러닝 로드맵
https://dbourke.link/mlmap

해당 로드맵에 대한 설명
https://www.youtube.com/watch?v=pHiMN_gy9mk

'빅데이타 > DATA분석' 카테고리의 다른 글

데이터 분석을 위한 R(1) (0)	2018.07.04

데이터 분석을 위한 R(1)

2018. 7. 4. 07:11

1개월간 공부한 R에 사용방법 정리.

R에 내장된 데이터

Iris, BOD

데이터프레임(dataframe)구조 파악하기 => str(iris)

아래는 150개의 관측치(observation)가 있고 5개의 변수가 있다는 정보를 보여준다.

4개의 변수는 number형태이고

1개의 변수는 factor이다.

> str(iris)

'data.frame': 150 obs. of 5 variables:

$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...

$ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...

$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...

$ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...

$ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

데이터 일부확인하기

상위5개, 하위5개 보기

> head(iris)

Sepal.Length Sepal.Width Petal.Length Petal.Width Species

1 5.1 3.5 1.4 0.2 setosa

2 4.9 3.0 1.4 0.2 setosa

3 4.7 3.2 1.3 0.2 setosa

4 4.6 3.1 1.5 0.2 setosa

5 5.0 3.6 1.4 0.2 setosa

6 5.4 3.9 1.7 0.4 setosa

> tail(iris)

Sepal.Length Sepal.Width Petal.Length Petal.Width Species

145 6.7 3.3 5.7 2.5 virginica

146 6.7 3.0 5.2 2.3 virginica

147 6.3 2.5 5.0 1.9 virginica

148 6.5 3.0 5.2 2.0 virginica

149 6.2 3.4 5.4 2.3 virginica

150 5.9 3.0 5.1 1.8 virginica

데이터에 대한 summary로 자료의 특성 파악하기

> summary(iris)

Sepal.Length Sepal.Width Petal.Length Petal.Width Species

Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50

1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50

Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50

Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199

3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800

Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500

cbind() 함수를 사용해 두 데이터를 병합한 데이터프레임 생성해보기

먼저 행의 개수가(observation) 일치한 데이터프레임이어야 합니다.

내장 데이터프레임 BOD, iris가공해서 진행

> iris2 <- head(iris)

> str(BOD)

'data.frame': 6 obs. of 2 variables:

$ Time : num 1 2 3 4 5 7

$ demand: num 8.3 10.3 19 16 15.6 19.8

- attr(*, "reference")= chr "A1.4, p. 270"

> str(iris2)

'data.frame': 6 obs. of 5 variables:

$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4

$ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9

$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7

$ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4

$ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1

> iris2BOD <- cbind(iris2, BOD)

> show(iris2BOD)

Sepal.Length Sepal.Width Petal.Length Petal.Width Species Time demand

1 5.1 3.5 1.4 0.2 setosa 1 8.3

2 4.9 3.0 1.4 0.2 setosa 2 10.3

3 4.7 3.2 1.3 0.2 setosa 3 19.0

4 4.6 3.1 1.5 0.2 setosa 4 16.0

5 5.0 3.6 1.4 0.2 setosa 5 15.6

6 5.4 3.9 1.7 0.4 setosa 7 19.8

# 데이터 정비

#iris2BOD 7개의 변수가 있는 데이터를 5개의 변수로 해서 새데이타프레임 생성

#즉, Sepal.Length, Sepal.Width, Species, Time, demand변수를 가진 iris2BOD2 데이터프레임생성하기

> iris2BOD2 <- iris2BOD[,c("Sepal.Length", "Sepal.Width", "Species", "Time", "demand")]

> show(iris2BOD2)

Sepal.Length Sepal.Width Species Time demand

1 5.1 3.5 setosa 1 8.3

2 4.9 3.0 setosa 2 10.3

3 4.7 3.2 setosa 3 19.0

4 4.6 3.1 setosa 4 16.0

5 5.0 3.6 setosa 5 15.6

6 5.4 3.9 setosa 7 19.8

패키지 사용시

> library(ggplot2)

로 라이브러리에 추가하고 진행.

저작자표시 비영리 변경금지 (새창열림)

'빅데이타 > DATA분석' 카테고리의 다른 글

머신러닝 로드맵 (2)	2020.08.04

PREV 1 NEXT

Do It For You