컴알못의 고군분투기 2
설문조사를 돌리면 어떤 항목은 결과가 숫자가 나오고, 어떤 항목은 글로 나온다.
예를 들어 영화 관람객들의 평점을 받았다고 하자.
영화평점을 5점 만점으로 답해달라고 했다면, 그 값은 1-5의 숫자로 나올 것이다. 이 숫자값은 평균, 분산등의 계산이 가능한 데이타이다. 그리고 일반적으로 대부분의 설문은 나이, 성별을 같이 받는다. 나이 항목도 마찬가지로 숫자로 값을 받지만, 성별은 여성, 남성과 같은 글로 받게 된다. 글의 경우에는 숫자가 아니기 때문에 사칙연산이나 평균계산등이 불가능하고 여성는 몇명 또는 남성는 몇%와 같이 해석적인 분석만 가능하다. 그리고 2023년 현재까지 영화 흥행 순위같은 경우는 마찬가지로 숫자 데이터이지만 이것은 순위(orderic )이기 때문에 사칙연산이 불가능하다. 예를 들어서 2022년 A라는 영화의 흥행기록이 20대 관람객에게 1위, 30대 관람객에게는 3위의 흥행을 기록을 했다고 해서, 20-30대 관람객에게 2위인건 아닌 것과 같다.
이렇듯, 데이터의 종류에 따라 분석방법이 다르기 때문에 R에서 데이터를 불러오면 각 데이타가 무슨 타입인지 지정이 된다.
내가 불러온 파일에서 각 데이터들이 어떤 데이터형식으로 지정되는지 확인하고 싶다면, 또는 특정 분석을 위한 수식이 안 먹혀서 형식을 변경하고 싶다면 아래와 같은 방법으로 하면 된다.
1. File->원하는 파일 클릭-> import dataset
2.데이터의 이름 아래 괄호값을 확인한다.
여기에서는 double로 자동지정되어 있는데, 이는 정수를 의미한다.
그 부분을 누르면 아래와 같이 바꿀 수 있는 다른 데이터 타입들이 나온다. 성별의 경우는Character로 지정해주면 된다.
좀더 자세한 내용을 알고 싶다면 아래 글을 참고하세요.
https://thestoryofcosmetics.tistory.com/29