회복이 아직도 안되었지만, 어쨌든 계속 해야지.
이곳이 거실이자 내 작업대다.
누군가에겐 혼잡해 보이겠지만, 사실은 꽤 체계적으로 정리되어 있는 편.
원래는 컴퓨터 방에서 모든 걸 다 했었는데 노트북을 산 뒤로는 컴퓨터 방에 잘 들어가지 않는다.
컴퓨터 방은 필요한 물건들을 적재해놓은 공간이고,
거실은 좋아하는 것들이 잔뜩 있는 공간이기에 아무래도 공간에서 주는 힘이 있다.
오늘은 인터뷰 질문 작업을 하다가 시간이 다 갔는데, 글쓰기에 시간이 걸리는 건 어쩔 수 없다.
내일 사람들에게 배포하려면 리스팅도 해야지.
남은 시간 동안 사운드 작업 워크플로우도 정리해야 한다.
그리고 공부도...
연휴의 넷째 날, 왜 벌써 나흘 째인지 믿겨지지 않지만 어쨌든 다시 복습에 들어간다.
정의:
API에서 받은 원본을 그 시점 그대로 저장하는 것.
이유:
API가 바뀌거나 장애가 생겨도 같은 데이터를 다시 불러올 수 있다.
python -m src.pipelines.snapshot --style reds # → data/snapshots/<YYYYMMDD-HHMMSS>/wines_reds.json
정의:
저장된 스냅샷을 스키마, 타입, 중복으로 검사해 깨끗한 데이터만 다음 단계로 넘긴다.
우리 코드:
src/validate.py(pydantic) →_bad.json 으로 오류 데이터 분리.
정의:
텍스트를 수치화해 유사도 계산의 기반을 만든다.
규칙:
wine×6 + winery×3 + location×1로 코퍼스 가중.
python -m src.pipelines.embed_fit --style reds
→ artifacts/tfidf.pkl, X_reds.npz, ids_reds.json, meta.json
분리 원칙:
계산은 reco/, 실행·저장은 pipelines/
지난 프로젝트에서 팀 깃 작업을 안했기에 이번에 처음하면서 좀 어려웠다.
뭘 올리고, 올리지 않아야하는지도 다 물어보면서 할 수 밖에 없었는데,
아래와 같이 정리했다.
올리는 것: 코드(src/*), 설정(configs/*), 테스트, 문서 등의 코드
안 올리는 것: data/, artifacts/ (대용량·변동 잦음)
#AI 부트캠프 #커널아카데미 #커널아카데미부트캠프 #커널아카데미AI부트캠프