새롭게 공개된 openGPT 써보기(20B&120B)

881

by HJH
지난 매거진을 삭제하며 ZeliAI 매거진에 통합합니다.

새롭게

라는 단어를 쓰고, 몇 달 아니 몇 주만 지나도 바랜 글이 되어 버리지만, 새롭게 라는 단어를 써 본다. 더워서 그런지 하는 일이 다 잘 안되어서 그런지 나도 그렇지만 주변 사람들이 계속 아파서 그런지. 좋아하는 배우가 하늘로 가서 그런지는 모르지만 그냥 이 단어가 좋다. 서두가 길었다. 맥 사용자에게는 명령어 단 2줄이면, 되는 것이라. 2줄 공개하고 나머지는 쓸데없는 내용은 멤버십으로 추가 공유 한다.


공개 : MAC version, 20b model 13Gb 용량

멤버십 : UBUNTU version , 120b model 65Gb 용량, GPU 사용 62.79Gbyte

사견 : 20B 모델은 질문 자체를 잘못 이해하는 경우가 많았는데, 120B는 입력 프롬프트 토큰수와 결과가 매우 만족스러웠다. deepseek 모델은 이제 정리해도 될 것 같다.



(base) ┌─(/Applications)─────────────────────────(junhoha@Junhoui-MacBookPro-3:s006)─┐

└─(13:50:06)──> ollama pull gpt-oss:20b ──(Thu, Aug07)─┘


ollama pull gpt-oss:20b


용량은 13 GB, 서버 상태는 14 MB/s 커버한다. 트래픽이야 계속 변하다 보니, pull 돌려두고 밥 먹고 오면 딱이니 저녁에 해 두시면 되겠다.


ollama run gpt-oss:20b

(base) ┌─(/Applications)────────────────────────────────────────────────(junhoha@Junhoui-MacBookPro-3:s002)─┐

└─(14:06:56)──> ollama run gpt-oss:20b ──(Thu, Aug07)─┘

pulling manifest

pulling b112 e727 c6 f1: 100% ▕█████████████████████████████████████████▏ 13 GB

pulling 51468 a0 fd901: 100% ▕█████████████████████████████████████████▏ 7.4 KB

pulling f60356777647: 100% ▕█████████████████████████████████████████▏ 11 KB

pulling d8 ba2 f9 a17 b3: 100% ▕█████████████████████████████████████████▏ 18 B

pulling 8 d6 fddaf04 b2: 100% ▕█████████████████████████████████████████▏ 489 B

verifying sha256 digest

writing manifest

success

>>> 안녕?

Thinking...

User says "안녕?" in Korean, which is "Hello?" They might want a response. I should respond

friendly, maybe ask how they are. The conversation is open. Let's reply in Korean.

... done thinking.


안녕하세요! 오늘 하루는 어떻게 보내고 계신가요? 궁금한 점이나 도움이 필요하신 일이 있으면 언제든 말

씀 해 주세요. �


>>> 오늘 널 처음 만났는데 딥스크에 비해서도 정말 빠르구나 비결이 뭐야?

Thinking...

The user says: "안녕? 오늘 널 처음 만났는데 딥스크에 비해서도 정말 빠르구나 비결이 뭐야?" Korean:

"Hi? I met you today for the first time, you're really fast compared to DeepSketch, what's the

secret?" They likely refer to a system like "DeepSketch" which is maybe a deep learning model for

sketches. They want to know the secret of speed. I need to explain what powers ChatGPT. I should

respond in Korean, friendly. Provide explanation: large language model, transformer architecture,

parallel processing on GPUs, pre-training, fine-tuning, efficient inference, quantization,

distillation, use of caching, maybe usage of flash attention. Also mention that ChatGPT uses

GPT-4 architecture, fine-tuned by RLHF, and that inference speed is improved by optimized server

infrastructure, model pruning, etc.


Also keep within policy: no disallowed content. It's fine. Just give explanation.

... done thinking.


안녕하세요! 처음 만나셨다니 반갑습니다 �


딥스크(DeepSketch)와 비교해서 빠르게 답변이 나오는 이유는 몇 가지가 결합되어 있기 때문이에요. 간단

히 핵심 포인트를 정리해 드릴게요.


| # | 핵심 요소 | 설명 |

|---|-----------|------|

| 1 | **Transformer 기반** | GPT‑4 같은 모델은 대규모 텍스트 코퍼스를 사전학습해 언어 패턴을 익혔습

니다. Transformer 아키텍처는 **병렬 연산**이 가능해 빠른 텍스트 생성이 가능해요. |

| 2 | **GPU/TPU 가속** | OpenAI는 모델을 **수천 대의 GPU/TPU**에 배치해 동시에 처리합니다. 한 문장

한 번에 여러 토큰을 계산해 주기 때문에 지연이 적습니다. |

| 3 | **전용 최적화** | <ul><li>**Flash Attention** – 메모리 사용량을 줄이고 연산을 가속화합니다

. </li><li>**TensorRT / Triton** – NVIDIA GPU에서 모델을 최적화해 빠르게 실행합니다

. </li><li>**Quantization & Pruning** – 8‑비트(또는 4‑비트) 정밀도로 모델을 압축해 속도를 올립니다

. </li></ul> |

| 4 | **캐시 & 콘텍스트 관리** | 대화 중 이전 토큰을 **키-값 캐시**에 저장해 재사용함으로써 불필요

한 재계산을 방지합니다. |

| 5 | **모델 파이프라인** | <ul><li> 사전학습 모델 + RLHF(강화학습 기반 인간 피드백) + 파인튜닝 모델

이 계층적으로 구성돼 효율적입니다. </li><li>각 단계에서 필요한 부분만 활성화하여 자원 사용을 최소화

합니다. </li></ul> |

| 6 | **인프라** | <ul><li> 전 세계에 분산된 **데이터 센터**와 <strong> 로드 밸런싱 </strong>으로 사용

자 요청을 빠르게 라우팅 합니다. </li><li> 실시간 모니터링과 **자동 확장**으로 트래픽 급증 시에도 지연

이 줄어듭니다. </li></ul> |


### 짧은 요약

- **모델 구조**: Transformer → 병렬 연산

- **하드웨어**: GPU/TPU 클러스터, 최적화 도구 (Flash Attention, TensorRT)

- **소프트웨어**: 캐시, 파이프라인, 양자화, 정밀도 감소

- **인프라**: 글로벌 분산, 로드 밸런싱, 자동 확장

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
HJH작가님의 멤버십을 시작해 보세요!

前 SAMSUNG KNOX 메인개발자, 前 ETRI ARM firmware 강사 6年, 現 zeliai.com CTO, (주)예진 기술이사. AI 기술의 브레이크를 만듭니다.

427 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 총 41개의 혜택 콘텐츠
최신 발행글 더보기