brunch

중앙선거관리위원회 선거공약정보 분석해보기 1

공공데이터 분석

by 김영하

Retrieval-Augmented Generation

지난 주 2024년 11월 29일 금요일, 공공데이터포털(data.go.kr)의 데이터 중에서 오픈API로 제공되고 있는 "중앙선거관리위원회 선거공약정보"가 갱신되었습니다.


스크린샷 2024-12-02 오후 11.21.06.png

선거ID와 선거종류코드, 후보자ID를 입력하여 선거공약 정보를 조회할 수 있다고 합니다. 갑자기 선거공약 데이터를 수집해서 워드클라우드 시각화선거공약 SLM (Small Language Model)을 만들어 보는 것은 어떨지 생각이 들었습니다.


1. 데이터 수집 (API 호출 -> JSON -> PostgreSQL)

2. 선거공약를 조회해 볼 수 있는 대시보드 (Streamlit)

3. Ollama를 활용해서 SLM 구축 및 RAG (Retrieval-Augmented Generation)으로 실행 후 챗봇 만들기


일단, 데이터를 수집하려하니 데이터는 API 호출방식으로 제공이 된다고 합니다.

스크린샷 2024-12-02 오후 11.29.25.png

그런데, 문제필수 항목중에 선거ID, 선거종류코드, 후보자ID가 있어야 한다는 것입니다. 점점 재미있어집니다. 데이터를 좀더 수집해야 겠군요!


혹시나 해서 좀더 아래 부분을 살펴보니 추천데이터"중앙선거관리위원회 코드정보" 데이터가 있네요!

스크린샷 2024-12-02 오후 11.41.31.png

이동!

스크린샷 2024-12-02 오후 11.44.07.png


요청변수를 살펴보니 서비스키만 입력하면 됩니다! 여기가 시작점이 될 것 같습니다!!!

스크린샷 2024-12-02 오후 11.44.45.png


출력결과를 보니 우리에게 필요한 선거ID, 선거종류코드가 존재합니다!

스크린샷 2024-12-02 오후 11.47.22.png

그런데 후보자ID가 보이지 않습니다!


역시 쉽게 가는 것이 없습니다! 다음에 글에서 일단 선거ID, 선거종류코드라도 수집해보겠습니다!


감사합니다.

keyword
이전 02화데이터는 어디에서 수집을 해볼까요?