브런치 라이선스 사전 랭체인, RAG 적용

868, dashboard

by HJH

인공지능 파트는 동료를 구해서 이제 둘이서 함께 한다. 브런치 작가님으로 권유를 할 것이고, 조만간 그분의 공간과 연결되지 않을까 기대해 본다. 임시로 만들어 놓은 것이라 서버를 언제까지 유지할지는 모르지만 한 달은 하지 않을까 싶다. 이래저래 하는 게 많아 잊어버리면 1년이 될지도 모르겠다.

http://naver.how:8801/search_html?q=salt%20%EB%9C%BB&k=10

랭체인, RAG는 요즘 대세 기술이다. 챗봇(LLM) 프레임워크 라고 보면 된다. 개발자 관점에서 보면 엘라스틱서치, 루씬 때 하던 검색이 RAG로 이동하는 것 같아 보이고 그 결과도 상당히 마음에 든다. 사실, RAG 없이도 LLM은 그 자체가 검색 기술를 대체할 수 있는 대체기술이기도 하다. 그러나 구글링이나 네이버를 통해 찾는 검색은 여전히 괜찮다. 챗봇(LLM) 검색은 최근 바뀐 최신 법령을 빠뜨릴 수도 있기 때문에 법 분야 LLM 만드는 사람에게는 RAG가 필수 기술이다. LLM 답변 전에 최신 문서를 먼저 검색하게 하는 기술이 RAG다. 먼저 검색해서 그 결과를 LLM 프롬프트로 보내고, 쓸대 없는 말을 안 하게 만드는 프롬프트도 함께 던진다. 그래서 LLM 이 만든 사전에 적용해서 원 단어도 뽑지만 유사 단어도 뽑도록 RAG를 적용하고, 정확한 단어를 검색하던 엘라스틱서치나 루씨 말고 랭체인을 적용해서 벡터 기반(찾고자 하는 위치와의 단어 간 거리 계산)으로 검색하는 기술도 적용했다. 당연히 모든 기술은 공개한다. 새로 합류하신 분께서 문과(법학과) 시라 아마 더 잘 설명하시지 않을까 한다. 이에 중급 편을 공저하고 싶은데 수락하실지는 아직은 미지수다(제안 전이라...)

함께 할 수 있던 없던 더 나은 분에 의해서 좋은 기술이 세상에 공개되고 또 그렇게 하시는 분이 많을수록 대한민국 기술은 다채로워진다. 모두 대기업 연구실, 선행 개발팀, 가산/구로의 고인 물 개발자들, 대학 연구실이나 카이스트, ETRI, 김**/강** 강사님, 인공지능 관련 기업 등... 나 역시 선두에서 열심히 하시는 모두에게 받은 기술들이다.


먹거리도 한국만 볼게 아니라 전 세계로 넓혀보면 정말 많은 먹거리가 보인다. 중국이라는 무서운 나라가 있지만 안전과 사람에 대한 신용은 또 한국 브랜드가 높기에 인공지능에 대한 열풍이 계속해서 불고 있는 한국에서 뭘 하던 도전 해 볼 만한 가치는 있어 보인다.


최근 글 찾기가 어려워져서 매거진을 조용히, 또 계속해서 나누고 있다. 글을 또 정리할 시간이 온 것이다. 글을 제품에 제대로 녹이고 나면 글은 사라지기도 했었다. 그런 글이 참 아깝기도 했다. 그 이유는 그 제품이 지속 가능하진 않았었기 때문이다. 지속가능케 하려면 내가 원하는 것을 해야 한다는 것을 알았고 그것이 기술의 결정체라면 다른 모든 곳의 공통분모도 되기에 널리 세상을 이롭게 할 수 있었다. 그래서 지금은 그렇게 진행하고 있다. 방향은 명확해서 천천히 걷는 즐거움도 있다.

keyword
매거진의 이전글도지(DOGE) 코인을 만들었다.