리스트(List)
숫자형, 문자열, 벡터 등 다양한 요소를 저장한다. 리스트도 다른 리스트에 저장할 수 있다.


리스트는 인덱스를 지정하여 출력할 때 숫자만 사용하는 것이 아니라 []를 한번 감싸서 표현해야 한다. 첫 번째 요소인 name에 관한 내용을 보려면 my_list[1]이 아닌 my_list[[1]]이라고 작성해야 한다.
값의 이름을 지정하여 사용하는 방법도 있다.
팩터(Factor)
팩터는 범주형 데이터를 위한 특수한 데이터 유형이다.
"남성", "여성"와 같은 딱 떨어지는 데이터에 사용할 수 있다.
팩터를 이용하면 중복되지 않은 데이터의 내용을 파악할 수 있다. (자료구조 중 Set 이라고 생각하면 됨)

벡터를 이용하여 팩터를 만들었다. 해당 팩터를 출력해보면 원래 저장되어 있던 값이 출력되는데
중복되지 않은 값을 보려면 levels()라는 함수를 사용하면 된다.
단일 데이터가 아닌 여러 주제의 데이터는 매트릭스 또는 데이터프레임으로 나타낼 수 있다.
매트릭스(Matrix)
데이터의 모든 셀이 같은 자료형으로 이루어진 구조이다.

위와 같은식으로 출력된다. 기본 증가 방향은 세로로 증가인데 가로로 증가하도록 변경하고 싶으면 byrow=T를 추가하면 된다.

가로로 증가하도록 변경했다.

rbind()와 cbind()를 통해서 원래의 매트릭스에 데이터를 추가할 수 있다.
rbind()는 행을 추가하고,
cbind()는 열을 추가한다.
각각 원래의 한 열과 한 행 에 들어갈 수 있는 데이터 길이에 맞는 데이터를 추가해야 한다는 것을 주의해야 한다.

한 요소에 접근하고 싶으면 [] 안에 행과 열의 위치를 지정해주면 된다.
위의 경우에는 3행 5열의 데이터인 15를 가져왔다.
데이터프레임(Dataframe)
서로 다른 자료형이 포함되어 있는 경우는 데이터프레임이라고 한다.

data.frame()으로 데이터프레임을 만들 수 있다. 위의 경우는 두 벡터를 가지고 만들었다. 한 벡터는 문자열 값을 가지고 있고 다른 하나는 숫자형 값을 가지고 있다.

이런식으로 범위를 지정해서 추출할 수 있는데 [n, ]는 n행만 가져오겠다는 것이고, [, m]은 m열만 가져오겠다는 것이다.
'공부 > 빅데이터' 카테고리의 다른 글
| [빅데이터][R] Matrix & DataFrame 다루기 (0) | 2024.04.12 |
|---|---|
| [빅데이터][R] 기초 (명령문, 변수, 산술 연산 등) (0) | 2024.04.07 |