Retrieval-Augmented Generation
지난 주 2024년 11월 29일 금요일, 공공데이터포털(data.go.kr)의 데이터 중에서 오픈API로 제공되고 있는 "중앙선거관리위원회 선거공약정보"가 갱신되었습니다.
선거ID와 선거종류코드, 후보자ID를 입력하여 선거공약 정보를 조회할 수 있다고 합니다. 갑자기 선거공약 데이터를 수집해서 워드클라우드 시각화 및 선거공약 SLM (Small Language Model)을 만들어 보는 것은 어떨지 생각이 들었습니다.
1. 데이터 수집 (API 호출 -> JSON -> PostgreSQL)
2. 선거공약를 조회해 볼 수 있는 대시보드 (Streamlit)
3. Ollama를 활용해서 SLM 구축 및 RAG (Retrieval-Augmented Generation)으로 실행 후 챗봇 만들기
일단, 데이터를 수집하려하니 데이터는 API 호출방식으로 제공이 된다고 합니다.
그런데, 문제는 필수 항목중에 선거ID, 선거종류코드, 후보자ID가 있어야 한다는 것입니다. 점점 재미있어집니다. 데이터를 좀더 수집해야 겠군요!
혹시나 해서 좀더 아래 부분을 살펴보니 추천데이터에 "중앙선거관리위원회 코드정보" 데이터가 있네요!
이동!
요청변수를 살펴보니 서비스키만 입력하면 됩니다! 여기가 시작점이 될 것 같습니다!!!
출력결과를 보니 우리에게 필요한 선거ID, 선거종류코드가 존재합니다!
그런데 후보자ID가 보이지 않습니다!
역시 쉽게 가는 것이 없습니다! 다음에 글에서 일단 선거ID, 선거종류코드라도 수집해보겠습니다!
감사합니다.