마라탕 떡볶이 같은 하루 , AI하는 블록체인 개발자

블록체인에서 GPU프로그래밍까지, 오늘도 코드에 매운맛이 난다

by 불변하는 카린 Karin

GPU의 열, 코드의 열, 그리고 나의 열 –...


아침 9시.

오늘도 엔비디아 실습실 문을 열었다.

책상 위엔 Jetson Nano, CUDA 콘솔 창, 파이썬 코드를 띄운 노트북.

파이썬 문법책과 Jetson본체


그리고 공기 중에 남은 약간의 전자 냄새.

지난 몇 년 동안은 블록체인, Solidity, 스마트컨트랙트만 다루던 내게

이 “AI 실습 환경”은 아직 낯설다.

컴퓨터 공학을 나름 나와서 GPU나 CPU, TensorFlow정도는 알았지만...

CUDA? TensorRT?

처음 들었을 땐 마치 외국어였다.

내가 하는건 Ai하드웨어 프로그래밍뿐만 아니라

GPU기반의 엔비디아 본체를 이용한 다양한 Python과 C++실험이다.

엔비디아 컴퓨터 본체는 비트코인 채굴기 하드웨어 같이 생겼다...


블록체인에서는 노드(Node) 와 트랜잭션(Transaction) 을 다뤘다.

코드가 네트워크 속에서 흘러다니고, 가스비(Gas Fee)를 계산하고,

이더리움의 상태(State)를 변화시키는 실험을 하고 그걸 가르치거나 외주를 하는게 내 일상이었다.


그런데 엔비디아 실습은 완전히 다른 세계였다.

이곳의 키워드는 프레임(Frame), 연산(Computation), 추론(Inference).

노드 대신 픽셀이 등장하고,

블록 대신 텐서(Tensor)가 움직인다.

코드가 아니라 빛과 연산의 속도가 문제였다.


같은 코드지만, 둘의 세상이 전혀 다르다.

그래서 처음엔 머리가 매웠다. 어질어질하다.

마치 국물 첫입부터 혀가 얼얼한 마라탕 같았다.

사진은 내가 점심때 자주먹는 마녀김밥의 마라 떡볶이다. 오늘도 점심에 머리아파서 마라 떡볶이를 한입하였다. 그걸 모티브로 적는 글..


자 돌아와서 오전부터의 스토리로 가보자.


오전 – GPU와 CPU의 온도 차

오늘 오전 실습은 CPU와 GPU의 연산 속도 비교였다. 단순한 행렬 곱셈을 수행하면서

두 하드웨어의 구조적 차이를 직접 체감했다.


사진은 Nvidia 본체를 연결한 인터넷 화면


CPU(Central Processing Unit)

→ 사람의 두뇌처럼 “한 번에 한 가지 일”을 매우 정교하게 처리한다.


GPU(Graphics Processing Unit)

→ 수천 개의 코어가 동시에 일하는 병렬 두뇌.

그림, 영상, 딥러닝 계산에 특화되어 있다.


CUDA (Compute Unified Device Architecture)

→ GPU에게 “너 이제 그림 말고 계산도 해봐”라고 명령할 수 있게 만든

엔비디아의 병렬 연산 기술.


우리는 같은 파이썬 코드를

CPU와 GPU 각각에 돌려서 속도를 비교했다.

CPU는 2.37초, GPU는 0.05초.


그 순간, 모니터 속 숫자는 단순한 수치가 아니라

마치 끓는 떡볶이 국물처럼 펄펄 살아 있는 에너지로 느껴졌다.


정말로 내 점심은 마라탕이었다.

엔비디아 실습생들이 한 자리에 모이면, 대화 주제는 대부분 GPU다.

“CUDA 커널이 좀 버벅이지 않아?”

“TensorRT로 최적화하면 속도 좀 오를 것 같아.”


나는 아직도 머릿속이 Solidity의 ‘가스비 절감 로직’으로 꽉 차 있어서,

그 말들이 마치 다른 세계의 언어처럼 들렸다.

하지만 신기하게도,

그 복잡한 대화에 마라탕의 향이 섞이니 묘하게 납득이 됐다.


첫 국물을 떠먹자 매운 향신료가 혀끝을 찔렀다.

청두(청두두반장)의 진한 향, 마늘의 열, 그리고 사천고추의 자극.

그 순간 머릿속도 같이 깨어났다.

낯선 개념들이 쏟아져 들어오며,

뇌가 새로운 언어를 받아들이는 ‘물리적인 통증’ 같은 느낌이 들었다.

AI 연산의 복잡한 구조가 그 매운맛과 묘하게 닮아 있었다.


오후 – 실시간 영상 감지 실습

새로운 카메라를 달았다?

드디어 Bj..?


우린 실시간 영상 감지(Object Detection) 실습을 진행했다.

YOLOv8 모델을 사용해 카메라 입력을 분석하고,

TensorRT를 통해 GPU에서 모델을 최적화했다.


YOLO (You Only Look Once)

→ 한 번의 연산으로 영상 내 객체를 빠르게 탐지하는 딥러닝 알고리즘.


TensorRT

→ 학습된 모델을 GPU에서 더 빠르게 실행할 수 있게 해주는 엔비디아의 추론(추가 실행) 최적화 툴.

정확도를 거의 유지하면서 속도와 효율을 동시에 높인다.


처음 코드를 돌렸을 땐 화면이 깜박일 뿐이었다.

GPU 사용률은 97%, 메모리는 포화 상태.

추론이 멈춰 있었다.


입력 해상도를 낮추고, Threshold 값을 0.6에서 0.3으로 조정하자

드디어 영상 화면 속 차가 하나씩 감지되었다.

박스가 프레임 안을 따라 움직이는 그 순간,

신나버렸다.

계속 정확도를 높히는 코드를 적으니,

박스가 여러개 뜨던게

차 하나만 감지한다.

앞서 했던 카메라 손가락과 얼굴감지와 유사한데,

더 업그레이드된 버전이다.


이런 경험은 "데이터가 실시간으로 살아 움직인다”는 영감을 얻었다.


블록체인보다 어렵지만, 그래서 매력적이었다

Solidity로 스마트컨트랙트를 짤 때는

논리와 보안, 수학적 정확성이 중요했다.

GPU 실습은 완전히 다르다.

이건 계산이 아니라 물리적 성능의 예술이다.


GPU와 CPU의 구조 차이,

메모리 병목, 스레드 동기화…

머리로만 이해할 수 있는 게 아니라,

손끝으로 체득해야 한다.


처음엔 단어 하나하나가 어렵게 느껴졌다.

‘커널’, ‘스트림’, ‘메모리 할당’, ‘쓰레드 블록’…

하지만 어느 순간,

이 낯선 용어들이 하나의 ‘언어 체계’처럼 느껴지기 시작했다.

마치 이더리움의 가스비 구조를 처음 이해했을 때처럼.


퇴근길 – 잔열 속에서

6시가 되어 실습실을 나섰다.

GPU는 식었지만, 머릿속은 여전히 돌아가고 있었다.

“GPU는 계산을 병렬로 수행한다.

그런데 인간은 그 병렬의 세계를 직관으로 해석한다.”


블록체인은 신뢰를 계산하는 기술이라면,

인공지능은 세상을 계산하는 기술이다.

오늘 나는 그 두 세계의 중간 지점에 있었다.



오늘의 실습 요약

CPU vs GPU 연산 비교

GPU는 CPU보다 약 40배 이상 빠른 병렬 연산 성능을 보였다.


CUDA 병렬 프로그래밍 실습

GPU의 코어를 직접 제어하여 행렬 연산을 수행하고 처리 속도 차이를 확인했다.


YOLOv8 + TensorRT 영상 감지

카메라 입력을 실시간으로 인식하는 객체 탐지 모델 구축 성공 (0.3초 반응).


핵심 인사이트

딥러닝의 속도는 하드웨어 사양보다 최적화의 설계 철학에 더 좌우된다.


처음엔 단어도 어렵고, 개념도 낯설었다.

하지만 GPU의 구조를 이해하고, 영상 인식 결과가 화면에 나타났을 때,

그 모든 혼란이 연결됐다.


‘AI는 수학이 아니라 이해의 감각으로 배운다.’

오늘 하루가 그걸 증명해줬다.


물론 사실 수학이 제일 중요한건 변함없다.

그렇게 오늘도 마라떡볶이 같은

매운 하루가 지나갔다.



작가의 이전글싱가폴의 첫 카지노, 내가 배운 퇴장의 기술