brunch

You can make anything
by writing

C.S.Lewis

by 코아 Oct 17. 2024

코딩 몰라도 OK! AI로 뉴스 크롤링 쉽게 하기

퍼플렉시티(Perplexity)로 파이썬 코드 작성해서 네이버뉴스 크롤링

안녕하세요, 여러분! 시장 조사나 리서치를 위해 다량의 뉴스 데이터를 수집해야 하지만, 복잡한 코딩을 몰라 어려움을 겪고 있나요? 혹시 반복적인 뉴스 타이틀 복사와 붙여넣기로 시간을 낭비하고 있나요? 만약 그렇다면, 오늘 소개할 방법이 그 문제를 쉽게 해결해줄 거예요. AI 도구를 사용해 코딩을 몰라도 뉴스 크롤링을 할 수 있는 간단한 방법을 알려드릴 테니 주목해 주세요.


ChatGPT클로드, 제미나이 등 다른 생성형 AI를 사용해도 되지만, 이번 글에서는 퍼플렉시티를 활용해 진행 하겠습니다. 기술적 배경이 없어도 충분히 따라 할 수 있는 과정이니 안심하고 따라와 주세요. 




1. 웹 크롤링이란?


먼저, 웹 크롤링이라는 개념을 간단하게 짚고 넘어갈게요. 웹 크롤링이란 웹페이지의 데이터를 자동으로 수집하는 작업입니다. 예를 들어, 여러 페이지를 탐색하면서 특정 정보들을 체계적으로 모으는 과정을 말하죠. 이를 통해 우리는 복잡한 수작업 없이 필요한 데이터를 효율적으로 수집할 수 있습니다.


웹 크롤링과 자주 혼동되는 개념으로 웹 스크래핑이 있습니다. 두 개념의 차이는 간단합니다. 웹 크롤링은 여러 웹페이지를 탐색하고 수집하는 작업에 중점을 두고, 웹 스크래핑은 그 수집한 데이터에서 필요한 정보를 추출하는 것에 중점을 둡니다. 쉽게 말해, 크롤링은 여러 페이지에서 정보를 모으는 과정이고, 스크래핑은 그 모은 정보에서 특정 데이터를 꺼내는 작업이죠.


이해가 되셨나요? 이제 실제로 네이버 뉴스 크롤링을 위한 코드를 AI로 어떻게 쉽게 작성할 수 있는지 알아보겠습니다.



2. 크롤링할 뉴스 주제 찾기


가장 먼저 해야 할 일은 우리가 크롤링하고자 하는 뉴스 기사를 찾는 일입니다. 이 과정은 여러분이 평소에 하시는 검색과 크게 다르지 않아요. 네이버 뉴스에 접속한 후, 관심 있는 주제나 키워드를 검색해서 원하는 기사를 찾아보세요.


예를 들어, 부동산에 대한 최신 뉴스를 크롤링하고 싶다고 가정해보겠습니다. 네이버 뉴스에서 부동산을 검색하고, 그 검색 결과 페이지의 URL을 복사합니다.


예시로 사용할 URL은 다음과 같습니다:

"https://search.naver.com/search.naver?where=news&ie=utf8&sm=nws_hty&query=%EB%B6%80%EB%8F%99%EC%82%B0" 


이 URL을 잠시 저장해 두세요. 나중에 파이썬 코드에서 사용할 겁니다.




3. 퍼플렉시티를 사용해 파이썬 코드 생성하기


이제 본격적으로 퍼플렉시티를 활용해 파이썬 코드를 생성할 차례입니다. 퍼플렉시티는 자연어 처리 기반의 AI 도구로, 사용자의 요청에 따라 다양한 코드를 생성할 수 있습니다. 코딩을 몰라도 프롬프트만 잘 입력하면 필요한 코드를 쉽게 얻을 수 있죠.


아래와 같은 프롬프트를 퍼플렉시티에 입력해 보세요:


프롬프트:

"당신은 10년 경력의 파이썬 전문가입니다. 사이트 'https://search.naver.com/search.naver?where=news&ie=utf8&sm=nws_hty&query=%EB%B6%80%EB%8F%99%EC%82%B0'에서 기사 제목과 뉴스 채널을 크롤링하고, 이를 표로 정리하는 파이썬 코드를 작성해 주세요."


이 프롬프트를 입력하면, 퍼플렉시티는 자동으로 파이썬 코드를 생성해줄 것입니다. 생성된 코드를 확인하고 복사하세요.





4. 구글 코랩에서 파이썬 코드 실행하기


이제 퍼플렉시티가 생성한 파이썬 코드를 실행해야겠죠? 코드를 실행하기 위한 파이썬 환경이 필요합니다. 여기서 우리는 구글 코랩(https://colab.research.google.com/이라는 무료 웹 기반 파이썬 실행 환경을 사용할 겁니다.


구글 코랩은 설치가 필요 없고, 웹에서 바로 파이썬 코드를 실행할 수 있는 아주 편리한 도구입니다. 먼저, 구글 계정으로 로그인한 뒤 Google Colab에 접속합니다. 그런 다음, "+코드" 버튼을 클릭해 새 코드를 입력할 수 있는 칸을 추가합니다.


이곳에 앞서 퍼플렉시티에서 복사한 파이썬 코드를 붙여 넣고, 상단의 '실행' 버튼을 클릭하면 됩니다. 코드가 제대로 실행되면, 여러분이 크롤링하고자 했던 뉴스 페이지에서 제목과 뉴스 채널을 표 형태로 출력할 겁니다.





5. 실행 결과 확인하기


코드를 실행하고 나면, 네이버 뉴스에서 추출한 기사 제목과 뉴스 채널을 확인할 수 있습니다. 이 데이터를 추출하고 나면, 여러분은 더 이상 일일이 복사하고 붙여 넣는 작업을 할 필요가 없습니다. AI가 모든 작업을 대신해주니까요. 또한 추출된 데이터를 엑셀 파일로 저장하거나, 보고서 작성에 바로 활용할 수도 있습니다. 이처럼 AI의 도움으로 단순 반복적인 작업에서 해방될 수 있습니다.






다양한 활용 방안

이제 뉴스 크롤링을 AI로 어떻게 쉽게 할 수 있는지 알게 되셨죠? 이 방법은 뉴스 크롤링뿐만 아니라 다양한 데이터 수집 작업에도 응용할 수 있습니다. 예를 들어:


시장 조사: 특정 제품이나 키워드에 대한 최신 뉴스를 크롤링해 트렌드 분석에 활용할 수 있습니다.

주식 정보 수집: 주식과 관련된 최신 뉴스 제목을 크롤링해 투자 의사 결정을 도울 수 있습니다.

소셜 미디어 모니터링: 트위터나 블로그에서 특정 키워드를 검색해 사용자 반응을 자동으로 수집할 수도 있습니다.


이 외에도 웹상의 데이터를 수집하고 분석하는 다양한 업무에 AI 도구를 활용할 수 있습니다.



마무리 

AI는 우리의 삶을 크게 바꾸고 있으며, 앞으로도 더 많은 기회를 제공할 것입니다. 코딩을 몰라도, 어려운 프로그래밍 언어에 익숙하지 않아도, 이제 누구나 AI의 도움을 받아 웹에서 데이터를 추출하고 활용할 수 있습니다. 여러분도 이 기회를 놓치지 마세요. 웹 크롤링 외에도 AI로 해결할 수 있는 문제들은 무궁무진하니까요!


#AI웹크롤링 #웹크롤링 #뉴스크롤링 #코딩없이크롤링 #노코드 



이 글이 유익하셨다면, 좋아요 ❤ 눌러주세요.

매거진의 이전글 퍼플렉시티(Perplexity): 사용방법과 활용사례
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari