Day 4 | 추석 생존 로그–다시 복습

회복이 아직도 안되었지만, 어쨌든 계속 해야지.

by 대장
KakaoTalk_20251006_191837342.jpg

이곳이 거실이자 내 작업대다.
누군가에겐 혼잡해 보이겠지만, 사실은 꽤 체계적으로 정리되어 있는 편.

원래는 컴퓨터 방에서 모든 걸 다 했었는데 노트북을 산 뒤로는 컴퓨터 방에 잘 들어가지 않는다.

컴퓨터 방은 필요한 물건들을 적재해놓은 공간이고,

거실은 좋아하는 것들이 잔뜩 있는 공간이기에 아무래도 공간에서 주는 힘이 있다.


오늘은 인터뷰 질문 작업을 하다가 시간이 다 갔는데, 글쓰기에 시간이 걸리는 건 어쩔 수 없다.

내일 사람들에게 배포하려면 리스팅도 해야지.

남은 시간 동안 사운드 작업 워크플로우도 정리해야 한다.

그리고 공부도...



MLOps 복습 — Day 3

연휴의 넷째 날, 왜 벌써 나흘 째인지 믿겨지지 않지만 어쨌든 다시 복습에 들어간다.


� 스냅샷 ― 재현성의 시작

정의:
API에서 받은 원본을 그 시점 그대로 저장하는 것.

이유:
API가 바뀌거나 장애가 생겨도 같은 데이터를 다시 불러올 수 있다.

python -m src.pipelines.snapshot --style reds # → data/snapshots/<YYYYMMDD-HHMMSS>/wines_reds.json


� 검증 (Validation)

정의:
저장된 스냅샷을 스키마, 타입, 중복으로 검사해 깨끗한 데이터만 다음 단계로 넘긴다.
우리 코드:

src/validate.py(pydantic) →_bad.json 으로 오류 데이터 분리.


� 임베딩 (훈련)

정의:
텍스트를 수치화해 유사도 계산의 기반을 만든다.
규칙:

wine×6 + winery×3 + location×1로 코퍼스 가중.

python -m src.pipelines.embed_fit --style reds

→ artifacts/tfidf.pkl, X_reds.npz, ids_reds.json, meta.json


분리 원칙:
계산은 reco/, 실행·저장은 pipelines/


� Git 관리 원칙

지난 프로젝트에서 팀 깃 작업을 안했기에 이번에 처음하면서 좀 어려웠다.

뭘 올리고, 올리지 않아야하는지도 다 물어보면서 할 수 밖에 없었는데,

아래와 같이 정리했다.

올리는 것: 코드(src/*), 설정(configs/*), 테스트, 문서 등의 코드

안 올리는 것: data/, artifacts/ (대용량·변동 잦음)


KakaoTalk_20251006_195319604.jpg

#AI 부트캠프 #커널아카데미 #커널아카데미부트캠프 #커널아카데미AI부트캠프

keyword
매거진의 이전글Day 3 | 추석 생존 로그–행오버 복습