brunch

데이터 분리의 기술 중급 편+고급 편

by HJH

프로그래밍의 중급 편이지만, 사실 미국 사람 입장에서는 한글로 대부분 적혀있고, {[]} 괄호가 전부라... 조금 다른 형식으로 글을 쓰는 것 밖에 없다. 나는 모든 사람이 개발자가 되어야 한다고 생각한다. 물론, 모두 집에서 요리를 하지만 파인 다이닝 요리사는 다르듯이, 업으로 하는 사람은 뭔가 다른 게 있어야 하고 계속해서 다른 사람들에게 영감을 불어넣어 줄 수 있게 노력해야 한다.


우선, 중급 편 내용은 다음과 같다. 딥티크 V3 base 이후, 딥티크 V3도 구글 드라이브에 다 올라가서 탐색이 가능하여 웹 페이지를 업데이트했습니다. 이에, 데이터가 분리되어 있으므로 models 참고하여 추가하면 됩니다.


{
"models": [
{
"name": "DeepSeek V3 Base",
"description": "자연어 처리, 다국어 지원",
"type": "nlp",
"license": "MIT",
"size": "7.5GB",
"updated": "2025.03.16",
"gdriveUrl": "https://drive.google.com/drive/folders/1A-tARKv-sVScp7ue3CE4G6mPylObShS1?usp=sharing",
"huggingfaceUrl": "https://huggingface.co/deepseek-ai/deepseek-v3-base",
"githubUrl": "",
"magnetUrl": "magnetaddr://DeepSeek-v3-base-7b"
},
{
"name": "Llama 3.2 3B Instruct",
"description": "Meta의 최신 오픈소스 대규모 언어 모델",
"type": "nlp",
"license": "Llama 2 CLA",
"size": "6.5GB",
"updated": "2025.03.10",
"gdriveUrl": "",
"huggingfaceUrl": "https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct",
"githubUrl": "https://github.com/meta-llama/llama",
"magnetUrl": "magnetaddr://Llama-3.2-3b-instruct"
},
{
"name": "Mistral 7B",
"description": "고성능 경량 언어 모델",
"type": "nlp",
"license": "Apache 2.0",
"size": "14GB",
"updated": "2025.02.28",
"gdriveUrl": "",
"huggingfaceUrl": "https://huggingface.co/mistralai/Mistral-7B-v0.1",
"githubUrl": "https://github.com/mistralai/mistral-src",
"magnetUrl": "magnetaddr://Mistral-7b-v0.1"
},
{
"name": "Stable Diffusion XL",
"description": "텍스트에서 이미지 생성 모델",
"type": "cv",
"license": "CreativeML OSL",
"size": "6.5GB",
"updated": "2025.03.05",
"gdriveUrl": "",
"huggingfaceUrl": "https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0",
"githubUrl": "https://github.com/Stability-AI/stablediffusion",
"magnetUrl": "magnetaddr://stable-diffusion-xl-base-1.0"
},
{
"name": "CodeLlama 34B",
"description": "코드 생성 및 분석을 위한 대규모 언어 모델",
"type": "code",
"license": "Llama 2 CLA",
"size": "68GB",
"updated": "2025.01.20",
"gdriveUrl": "",
"huggingfaceUrl": "https://huggingface.co/codellama/CodeLlama-34b-hf",
"githubUrl": "https://github.com/facebookresearch/codellama",
"magnetUrl": "magnetaddr://CodeLlama-34b-hf"
},
{
"name": "CLIP",
"description": "OpenAI의 이미지-텍스트 이해 모델",
"type": "multimodal",
"license": "MIT",
"size": "2.1GB",
"updated": "2025.02.15",
"gdriveUrl": "",
"huggingfaceUrl": "https://huggingface.co/openai/clip-vit-base-patch32",
"githubUrl": "https://github.com/openai/CLIP",
"magnetUrl": "magnetaddr://openai-clip-vit-base"
},
{
"name": "Whisper Large",
"description": "OpenAI의 음성 인식 및 번역 모델",
"type": "nlp",
"license": "MIT",
"size": "1.5GB",
"updated": "2025.02.10",
"gdriveUrl": "",
"huggingfaceUrl": "https://huggingface.co/openai/whisper-large-v3",
"githubUrl": "https://github.com/openai/whisper",
"magnetUrl": "magnetaddr://openai-whisper-large-v3"
},
{
"name": "Gemma 7B",
"description": "Google의 경량 오픈 소스 AI 모델",
"type": "nlp",
"license": "Gemma 라이선스",
"size": "12GB",
"updated": "2025.02.25",
"gdriveUrl": "",
"huggingfaceUrl": "https://huggingface.co/google/gemma-7b",
"githubUrl": "https://github.com/google/gemma.cpp",
"magnetUrl": "magnetaddr://google-gemma-7b"
}
]
}


가 중급 편이라면, 고급 편은 다음과 같다.


초등학생 딸아이에게 프로그래밍을 가르쳐 주고 싶었다. 그동안 영어는 배웠기 때문에 조금은 생소하겠지만, 괄호만 알면 되어서, 프로그래밍 문법을 가르쳐 주었다. HTML, CSS, JS는 조금 어려워할 것 같아서 데이터를 JSON으로 분리하여 데이터 수정 후 그것을 publishing 하고 화면에서 보이고 친구들에게 어떻게 자신의 결과물을 보여 주는지 가르쳐 주었다.


내 예상대로 될지는 모르지만, 나는 또 한 명의 동료를 얻은 셈이고, 코드를 넘어 사람과 소통한다. 여기서 OLPP의 가장 중요한 (중략...)


그래서 중급 편에서의 설명이 잘 되어 있으면, 고급 편에서는 설명을 더 줄일 수 있다. 물론, 책에서는 JSON 외 postgeSQL을 함께 다뤄야 한다. 요즘 세상에 데이터베이스는 필수기 때문이다. 크게 보면, DB도 파일이지만. 나름의 기술이 많이 들어가 있다.


저렇게 딱딱한 주제 말고 좀 더 말랑말랑하고 참신하고 사회에 도움 되는 아이디어로 데이터 분리를 해야 알파 세대와 소통이 가능할 것이다.



글은 끝나고 좀 더 적어보면,


기초가 입문이고 중급 편이 응용이라면, 고급 편은 통찰이다. 통찰이 중요한 이유는 어떤 난잡한 상태에서도 진정한 가치를 찾는 것에 있다.


요즘 AI 하는 꼬락서니를 보면, 진정한 가치가 뭔지도 모른 체 그냥 그동안 공부한 돈이 아까워서 뭐라고 하려고 쌩 ㅈㄹ을 하는 모습을 본다. 그들이 전혀 불쌍하지 않은 이유는 그들이 만들고자 하는 세상은 결국

사람의 해고

가 주요 포커스이기 때문이다. 이걸 쓰면 사람을 자를 수 있겠어. 이걸 쓰면 사람이 필요 없어. 등이다. 적어도 그런 아이디어 내면 또 일자리 창출에 대한 아이디어도 내고 그러면 되겠다. 그래서 나는 오히려 그런 사람들을 대체할 수 있는 것을 고민한다. 1차 산업 종사자가 아닌. 사람들의 대체다. 이건 제프리힌튼 교수의 통찰이라 무조건 이길 수밖에 없는 게임이다. 산업 혁명 때 노동자들의 변화로 지금 사람들이 남았다. 비용이 더 싸기 때문에 남은 것이다. 그리고 이번 지식 혁명 때는 지식인이 대부분 사라지고 남는 지식인이 있을 것이다. 어떤 지식인이 남을 지는 고민 해 봐야 한다. 그러나 한국에서 3달 안에 핵무기를 만들 수 있는 지식인(서균렬박사님)은 당연히 남는다.


나는 어떻게 살아남을까? 인공지능 직원이 준비되면, 대기업과 경쟁하면 된다. 왜냐면 대기업이 대기업이 해야 할 승부 외에 하고 있는 것도 많기 때문이다. 그리고 구글의 약점을 알고 있다. 구글은 엔터프라이즈 검색 서비스가 잘되는데도 본인들을 위협할 수 있어서 서비스를 내렸다. 그 프로그램을 집에 깔면 집에 있는 모든 문서가 검색 대상이 되는 것이었다. NAS 점점 보편화되어 가는 세상에서 그런 서비스도 괜찮다. 이미 void tool의 제품은 내용 검색까지는 아니더라도 매우 강력한 파일 검색 성능을 보여준다. 그리고 나 혼자 만들 필요도 없다. 전국의 컴퓨터 관련 학과 대학생과 만들어도 된다. :)

그럴 때 우리나라 대기업 노트북이나 컴퓨터를 사 주면 되고, 대기업은 하드웨어 제작에 있어, 계속해서 해외 의존도를 낮추는 방향으로 가는 편이 좋을 것이다.


keyword
매거진의 이전글FTP 터널링 기술