brunch

You can make anything
by writing

C.S.Lewis

구글 애널리틱스 정규표현식을 활용해 데이터 분류하기

정규표현식이란?


\d는 정규표현식에서 숫자를 나타낸다.

\d(4)는 4자리수의 숫자를 잡아내줄 수 있다.

\d(1,10)은 10자리까지 어떤 숫자든 잡아낼 수 있다.

\w 알파벳을 잡아내주는 정규표현식이다.

\s 띄어쓰기를 잡아내준다.



Ex) 1. 010-1234-5678, 2. 02-456-7890을 정규표현식으로 만든다면, '\d{2,3}\-\d{4,3}\-\d{4}'와 같은 정규현식이 나오게 됩니다. 해석을 해보자면, 1번과 2번 데이터 앞자리가 1번은 3자리, 2번은2자리이므로 {숫자갯수}를 넣어주었습니다. 이 후 -라는 데이터를 \-로 일치시켰으며 뒤에는 앞에 설명드린 방식으로 숫자의 숫자를 고려해서 작성하였습니다.


혹여 띄어쓰기가 발생한 010 1234 5678이 발생한다면 '\d{2,3}[\s\-]\d{4,3}[\s\-]\d{4}' 로 표현을 할 수 있습니다.


마지막 경우에는 01012345678, 02-456-7890이라는 데이터 모두를 정규표현식으로 분류하고 싶을 경우, '\d{2,3}[\s\-]?\d{4,3}[\s\-]?\d{4}'로 표현이 가능해집니다.


regexr.com

데이터에 일정한 규칙을 발견하였을 경우, 특정한 문자를 활용하여 데이터를 분류할 때 사용하는 것이 정규표현식이라고 부릅니다.


내가 가지고 있는 데이터에서 google 또는 basket이라는 단어가 규칙적으로 발생하고 있다면, 정규표현식 문자를 통해 쉽게 데이터를 분류할 수 있습니다. 정규표현식을 알아둔다면, 내가 원하는 조건을 다이나믹하게 활용할 수 있습니다.


작성한 정규표현식을 테스트 해볼 수 있는 사이트(클릭)



매거진의 이전글 구글 태그 매니저 GTM 변수, 트리거, 태그 설정하기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari