크롤링은 참 오랜 주제다. 늘 말하지만, 난 김윤기 님 덕에 크롤링에 입문하고 알게 되었으며,
난, 크롤링 데이터를 팔고 있기도 하다.
크롤링에는 다양한 방법이 있고, 다양한 전략이 있다. 가장 정상적인 방법은 API를 이용하는 방법이고, 예전에는 beautiful soup, 근래에는 selenium 최근에는 ***이다. 아래에 내 트위터에 로긴 해서 내용을 긁어온 로그는 다음과 같고 로그가 끝나는 위치에 소스를 올려두었다.
포털은 크롤링을 안 해도 된다. 어차피 고객 개인 정보든, 자신들이 모은 데이터를 데이터베이스에서 바로 읽어서 써버리면 되기 때문이다. 업비트가 장부 거래만 한 사실에 대해 무죄를 받은 것도 그 증거를 서버에 두었기 때문이다. 서버는 제대로 터치도 못하는데 굳이 사용자에게 일일이 동의받고, 또 동의받아다 한들 제대로 도덕적이고 윤리적인 것을 지켜서 뭘 할까? 국내 대기업 포털 **도 사용자가 입력하는 자동입력 방지 문자가 처음에는 정답이 없었다고 했다. 대부분은 제대로 입력하니 그것을 데이터로 모으고 어느 정도 모아지면, 정답지로 썼던 것이다. 예전에 ** 기업에서 뮤직 앱도 서버 로드 낮추기 위해서 무단으로 앱끼리 데이터를 공유했었다. 지금은 기사도 찾을 수 없다. 이런 것을 볼 수 있는 능력도 사실 극소수다.
나는 돈 벌기로 한 입장에서, 또 돈의 힘이 법을 뛰어넘는 케이스가 수도 없이 많다는 사실도 알기 때문에 크게 티 내지 않고 그냥 그런 문화에 동조하기로 했다. 어느 시점에 정의 구현 법조인이 모이면, 재벌도 처벌 가능할 때도 있지만, 그런 시점은 사실 극히 드물다. 그리고 시간이 많이 지나서 찾아보면 그 기조가 계속 이어지지도 않는다. 단 하나의 문제점도 심각하다고 생각하는 것에서 큰 틀만 깨지지 않는다면, 괜찮다는 생각으로 변했다. 판단도 통계적으로 바뀐 것이다. 크롤링도 통계적 생각에 가깝다. 100%는 아니지만 대체로의 방향을 볼 수 있고, 방향을 볼 수 있다면 미래의 어느 지점이 예상된다. 블록체인 교육 파트에 크롤링을 넣는 이유도 그렇다. 그리고 대부분의 최신 소식도 SNS에 올라오니 말이다. 사람들의 시각은 내 생각과 다를지 모르지만, 일론머스크도 도지로 장난치다가 맥아피 미망인이 문제 제기를 하자. 자신도 감옥에 갈까 봐 두려워서 트위터를 인수했다고 보고 있다. 트럼프에 올인한 이유도 트럼프 정권에서 더 이상 도지코인으로 문제제기를 못하게 하고 그 사이 시간을 벌어 미래 기술에 시간을 보내서 인식을 완전히 바꾸는 것이 있다. 어디나 공소시효는 존재하니까.
과거를 알고 방향을 보면, 미래를 알 수 있다. 그리고 데이터는 온갖 법적 장치로 보호받고 있고 힘 있는 사람들만 쓸 수 있다 보니 미래를 보고 다 함께 살 수 있는 미래를 만드는 더 똑똑한 사람들이 크롤러를 발전시키고 있다.
- 아래 -
[1]
HAJUNHO
@hajunho
·
3월 18일
naver.how
SSH 터널링 마스터하기: 로컬 포트 포워딩으로 내부 네트워크 연결하기 - naver.HOW data lake by AI
네트워크 엔지니어나 시스템 관리자라면 SSH 터널링의 강력함을 놓치고 있진 않은지? 오늘은 SSH 터널링의 핵심 기술 중 하나인 로컬 포트 포워딩(Local Port Forwarding)에 대해 심층적으로 알아보려 한다. 이 기술은 방화벽이나 네트워크 제한을 우회하여 내부 시스템에 안전하게 접근할 수 있게 해주는 필수적인 도구다. SSH 터널링이란...
8
--------------------------------------------------
[2]
HAJUNHO
@hajunho
·
3월 18일
naver.how
Ollama에서 DeepSeek-R1:14 b-Qwen-Distill 모델 사용하기: 완벽 가이드 - naver.HOW data lake by AI
로컬 환경에서 강력한 AI 모델을 실행하는 것이 점점 더 접근하기 쉬워지고 있습니다. 오늘은 Ollama 플랫폼에서 사용할 수 있는 특별한 모델인 deepseek-r1:14 b-qwen-distill-q8_0에 대해 자세히 알아보겠습니다. 이 모델의 이름에 포함된 각 요소가 무엇을 의미하는지, 그리고 다른 모델과 비교했을 때 어떤 차별점이 있는지...
8
--------------------------------------------------
[3]
HAJUNHO
@hajunho
·
3월 16일
naver.how
새로운 보안 패러다임: 군중 속의 익명성 - naver.HOW data lake by AI
부와 보안의 아이러니 청담동 주식부자로 알려졌던 이희진 사건은 보안의 본질에 대한 깊은 통찰을 제공한다. 그의 파란만장한 인생은 마치 현대 보안의 패러독스를 보여주는 하나의 상징과도 같다. 부자였다가 몰락했다가, 다시 재기했다가, 또다시 추락하는 과정. 특히 주목할 점은 그가 재기 과정에서 블록체인과 코인이라는, 이른바 '보안의 꽃'을 선택했다는...
8
--------------------------------------------------
[4]
HAJUNHO
@hajunho
·
3월 15일
naver.how
파이썬의 임의 정밀도 산술과 AI 개발에서의 정밀도 최적화 - naver.HOW data lake by AI
프로그래밍 언어마다 고유한 특징이 있지만, 파이썬이 수치 계산과 데이터 과학 분야에서 두각을 나타내는 이유 중 하나는 바로 '임의 정밀도 산술(arbitrary-precision arithmetic)'의 내장 지원입니다. 이번 포스팅에서는 이 기술적 특성이 무엇인지, 그리고 인공지능 개발에서 정밀도 문제가 어떻게 다루어지는지 깊이 살펴보겠습니다. XOR...
9
--------------------------------------------------
[5]
HAJUNHO
@hajunho
·
3월 14일
naver.how
AI 이미지 생성 서비스 구축의 기술적 선택: 클라우드 vs 온프레미스 아키텍처 - naver.HOW data lake by AI
서론: AI 이미지 생성 서비스의 현재와 도전 과제 인공지능 기술의 급속한 발전으로 Stable Diffusion, DALL-E, Midjourney와 같은 텍스트-이미지 생성 모델이 대중화되면서, 이를 활용한 서비스 구축에 대한 관심이 높아지고 있습니다. 특히 Stable Diffusion의 오픈소스 생태계는 개발자와 기업에게 맞춤형 AI 이미지 생성...
11
--------------------------------------------------
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.
오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠