필수 정규식을 알면 데이터 추출이 편해요
정규식이라는 낯선 단어를 접하셨지만 지레 겁먹지 않으셔도 됩니다. 정규식에 대해 간단히 말씀드리면 문자열 규칙입니다. 원하는 데이터를 추출할 때 사용합니다. '특정 문자를 표현하기 위한 암호'라고 생각하시면 좀 더 이해가 쉽겠네요. 수십 가지의 정규 표현식이 있지만, 그 많은 정규식을 모두 알 필요가 없습니다. 정말 필요한 부분만 알고 계시면 됩니다.
.*은 만능이라고 생각하시면 됩니다. 거의 뭐 아이언맨 수준입니다. 어떠한 문자열이 와도 .* 표현식은 해당 문자열을 만족시킵니다.
'|' 표현식은 '또는'이라는 의미입니다. 이를테면, 'a|b|c'는 'a' 또는 'b' 또는 'c'를 의미합니다. 키보드에서 '|'를 입력하려면 'Shift+\(엔터키 바로 상단)'를 입력하시면 됩니다. 아래 키보드 화면을 참고해주세요.
'\'는 특수문자가 올 때 사용하시면 됩니다. 예를 들어 '/' 또는 '?' 와 같은 문자열입니다. 정규식에서 이와 같은 특수문자를 바로 쓰면 안 됩니다. '\/', '\?'처럼 특수문자 앞에는 '\(Escape)' 를 사용해주세요.
'^'는 문자열의 시작을 의미합니다. 모바일 도메인은 보통 앞에 m 문자열이 붙게 마련입니다. 'm.naver.com' 과 'www.naver.com' 이 있을 때 'm.naver.com' 만 정규식으로 표현하려면 '^m.naver.com' 이렇게 써주시면 됩니다. 그러면 'm.naver.com' 트래픽만 추출하게 됩니다.
'$'는 문자열의 끝을 의미합니다. 특정 문자열로 끝나는 데이터만 추출할 때 사용하시면 됩니다. 'm.naver.com' 과 'm.naver.com/music' 이 있을 때 'm.naver.com' 만 정규식으로 표현하려면, 'm.naver.com$' 이렇게 써주시면 됩니다. 그러면 'm.naver.com' 으로 끝나는 트래픽만 추출합니다.
정규식을 직접 만들어보고, 일치하는지 테스트 해보세요. 직접 해보는 방법 외에 정규식을 익힐 수 있는 방법은 없습니다. 정규식을 알면 목표를 설정하거나 필터를 적용할 때 활용할 수 있고, 데이터를 정확하게 추출할 수 있습니다.
인트렌치 컨설팅이 어떤 회사인지 궁금하신가요?
그로스 해킹을 통해 서비스 전환율을 개선하세요.