로우 코드 스크래핑

by YJ

Jul 5. 2020

머신러닝이 대세이다 보니 스타트업을 대상으로 소그룹 스프린팅을 진행하고 있습니다. 강의가 끝나면 머신러닝은 알겠는데 재료가 되는 빅데이터를 어디서 구하냐고 묻는 분들이 많습니다. 요리 수업을 마쳤는데 어디서 좋은 재료를 사는지 궁금한 것이지요. 가장 손쉬운 방법은 슈퍼마켓이나 소매점에서 사듯 소량으로 구입할 수 있습니다. B2B 혹은 B2C로 데이터를 가지고 있는 회사에서 구입하거나 공공데이터를 활용할 수도 있습니다. 정보의 바다 인터넷에서 원하는 데이터를 모을 수도 있습니다. 웹 스크래핑이나 웹 크롤링이 있지요. 웹사이트에서 복사 붙여 넣기로 필요한 데이터를 긁어오는 것은 원시적인 웹 스크래핑입니다. 그런데 프랑스나 미국에서는 웹에서 이러한 단순 작업이 반복되면 불법으로 간주합니다. 웹 크롤링은 구글이나 야후 등 검색엔진에서 사용하는 방식으로 타기팅 되는 사이트들의 링크나 페이지의 데이터를 무차별적으로 긁어옵니다. 한국에서도 '여기 어때'가 경쟁사 '야놀자' 사이트의 정보를 무단 수집해서 유죄 판결받은 바 있습니다. 로그인이 필요한 웹사이트나 sns가 혼재된 환경에서는 해킹의 경계마저 모호해집니다. 어중간하게 알다가 범법행위를 저지를 수 있기에 공공연하게 가르치기 곤란한 면이 있습니다. 1:1 레슨이나 강의가 필요하신 분들은 이메일로 견적 요청해주시면 알려드리겠습니다.

Google Colaboratory

https://colab.research.google.com/notebooks/welcome.ipynb

기술 서비스를 운영하는 회사라면 웹과 앱을 사용하는 사람들이 매일 생성하는 빅데이터를 모으고 있습니다. 오프라인으로 이뤄지는 주먹구구식 활동은 매번 설문지를 돌릴 수도 없고 피드백이나 디테일한 데이터를 모으기 참 번거롭고 불편합니다. 예를 들어 전통적인 형태로 미술품을 판매하는 화랑에서 방문자들의 빅데이터나 고객들의 데이터를 종과 횡으로 다양하게 분석하기는 불가능에 가깝습니다. 기껏해야 엑셀에 판매 가격, 제작 연월일, 작품크기, 전화번호, 주소 등의 기초적인 데이터를 저장하고 있을 뿐입니다. 다음 전시를 할 때 팔로우업을 하거나 고객의 취향이나 구매주기를 분석할 여지는 없어 보입니다. 빅데이터는 말하지 않아도 모든 것을 담고 있습니다. 사방에서 녹화되는 CCTV처럼 말이지요. 지난번 브런치에서 다뤘던 API를 사용하면 프로그램 사이에 모종의 데이터를 주고받습니다. sns로 손쉬운 로그인을 할 때 동의를 요하는 항목들이 있지요. 대부분이 내용을 읽지 않고 전체 동의를 할 텐데 위치, 나이, 성별, 전화번호 등을 비롯 서비스에 따라 취향이나 거주지, 연소득, 가족관계 등 민감한 정보까지 공유되기도 합니다. json이나 xml 등의 형식으로 서버에 저장되는 데이터는 머신러닝에 바로 사용 가능한 양질의 데이터입니다. 구글이나 캐글에 있는 오픈소스 데이터를 이용할 수도 있는데 데이터 클렌징 같은 전처리 내공이 필요합니다. 정기적으로 상금이 걸린 대회를 개최하기에 실력을 검증받고 싶다면 도전하셔도 좋습니다.

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

https://www.kaggle.com/

로우 코드 7줄이면 단순 반복 노동에서 해방될 수 있습니다. 쇼핑몰에서 내가 원하는 품목의 가격만 한 번에 추려볼 수 있다면 정말 편리하겠지요. 웹이 정보의 바다라고 하지만 쓸만한 정보가 뒤섞여 있어 쓰레기장에 가깝습니다. 사람들이 쏟아낸 데이터 속에서 돈이 될 수 있는 정보를 가공해 비즈니스에 활용하거나 비싼 값에 파는 것이 미래형 산업입니다. 재활용 비즈니스인 스크랩과 유사합니다. 버려지는 것에 새로운 가치를 불어넣어 돈을 번다면 환경에도 좋고 멋진 일 아닌가요! 코딩으로 인력 감축 및 AI 대체로 비용을 줄일 수 있고 몇 주일이 걸리던 일을 획기적으로 줄일 수 있기에 효과적인 시간 활용이 가능합니다. 일찍 출근해서 늦게까지 일한다고 생산성을 보장하는 시대는 지났습니다. 코로나 이후 재택근무로 하루 4시간이면 이전과 다름없는 일이 가능해졌으니까요. 하지만 코딩을 하나도 모르는 일반인들에게는 요원할 뿐입니다. 그러나 기본을 알면 응용이 가능하고 전문성을 살려 세상에 없는 언택트 비즈니스 모델을 구상할 수 있습니다.

구글은 왜 무료로 드라이브를 나눠주고 이메일도 무료로 사용할 수 있도록 하였을까요? 베타 버전이라 기술이 떨어지거나 자선 사업을 하려고 그런 것은 아니겠지요. 구글은 큰 그림을 보았습니다. 사람들이 쓰고 찍고 매일 이동하며 만들어내는 모든 데이터를 가공해서 유료 서비스를 만듭니다. 카카오의 전신이었던 다음은 왜 무료 이메일 서비스를 나눠주고 카카오톡은 왜 무료로 사용할 수 있도록 했을까요? 바로 빅데이터 때문입니다. 여러분이 주고받고 쓰고 찍는 모든 데이터가 가공되면 엄청난 위력을 발휘할 수 있습니다. 국가보다도 더 많은 사용자를 거느린 페이스북이 쌓은 빅데이터는 어떻게 사용될까요? 암호화폐 리브라를 통해 기본소득을 나누겠다는 것도 이 때문입니다. 이제 기본소득은 임시 재정부양책이 아니라 테크 기업들이 무료로 사용한 빅데이터로 벌어들인 돈을 공여자들에게 나눠야 한다는 도의적인 책임에 눈뜨기 시작했습니다. 인문학의 승리일 수도 있고 더 나은 세상을 꿈꾸는 기업가들의 비전일 수도 있습니다.

VICE - The ‘World’s Most Beautiful Data Center’ is a Supercomputer Housed in a Church

The MareNostrum 4 is only the world’s 25th most powerful supercomputer, but it definitely has the most style.

https://www.vice.com/en_us/article/xwjegq/the-worlds-most-beautiful-data-center-is-a-supercomputer-housed-in-a-19th-century-church?utm_source=aofb&fbclid=IwAR1XzPU7iHYl2lWY5vxy6qfZscEDbwep-ITflEKPk_MpGWQ0mKKZ_vo_b00

머신러닝을 지나 딥러닝까지 가는 일련의 과정은 기술이 진보해도 전문가들에게 국한된 것일 수 있습니다. 내 데이터가 소중하다면 명함이나 사진, 문서 등을 효과적으로 관리하면서도 삶을 업그레이드할 수 있습니다. 앞으로는 모든 오프라인 데이터, 고립되거나 연결되지 않은 로컬 데이터는 유실되거나 가치가 떨어집니다. 마야, 잉카, 아스텍 등 사라져 버린 고대 문명에 아쉬워하면서 그때 축적된 데이터를 지하 깊숙이 혹은 우주 어딘가에 저장해 두었다면 얼마나 좋았을까 상상해보곤 합니다. 우리는 사진을 클라우드에 연동해두면 휴대전화를 잃어버리고 새로 바꿔도 예전과 다름없이 앨범을 꺼내볼 수 있으니 이 얼마나 편리한 세상인가요. 일일이 연락처나 문서를 옮기지 않아도 스마트폰이든 태블릿에서 끄적여도 컴퓨터에서 편집할 수 있습니다. 개개인의 데이터 속에 숨겨진 정보를 바탕으로 누군가는 더 편리하고 새로운 서비스를 기획하고 인류에게 더 나은 삶을 선사할 것입니다. 페이스북에서 인스타그램으로 그리고 틱톡으로 플랫폼은 변하지만 우리가 만들어내는 콘텐츠는 좋은 곳으로 쓰일 테니까요. 기술을 악용하는 사례도 있겠지만 기술과 집단지성 (collective intelligence)의 선함을 믿고 싶습니다. © Lisay G.

keyword

멤버쉽

2003년 일본에서 작가 데뷔해 미국, 독일, 중국 등 글로벌 기획자로 활동했습니다. 구독은 하고 댓글을 쓰기 바랍니다.

구독자 824

월간 멤버십 가입 월간 멤버십 가입

매거진의 이전글API로 애자일 하게본업을 가장한 IT 기업매거진의 다음글