brunch

You can make anything
by writing

C.S.Lewis

by 무명 Feb 19. 2021

[AWS] EC2, NAT gateway, Glue 팁

(뻘)팁이라고 쓰고 삽질기라고 읽는..

[AWS 뻘팁]


과금


1. EC2 인스턴스를 지울 땐 연결되었던 EBS도 잊지 말고 지워라, 용량당 월과금 된다. https://aws.amazon.com/ko/ec2/pricing/on-demand/


2. NAT gateway도 사용하지 않는 것은 지워라. 데이터 처리당 과금만 되는 게 아니라 시간당 과금도 존재한다. https://aws.amazon.com/ko/vpc/pricing/



Glue


3. Glue Studio에서 다층구조 json을 전처리할 때, 원하는 타입의 transform 블록을 적용하고, applymapping 블록을 하나 더 추가하여 나머지 필드들에 대해서 다시 재정의해야 한다.


4. Job details탭의 bookmark 설정에 따라서 실행 Job의 결과 파일이 나올 수도 있고 안 나올 수도 있다. bookmark는 해당 파일을 어디까지 작업 완료했는지 자체적으로 기록하여 데이터 중복을 피하기 위한 기능이다. 따라서, 첫 데이터 저장이 완료된 후 소스 데이터들이 변경되지 않았다면, 재차 Job을 실행할 때 데이터를 저장하지 않는다. (저장된 결과 데이터를 삭제해도 마찬가지다.)


5. 현시점에서, Glue Studio와 Glue서비스 간에 메타데이터 싱크가 되지 않아서(AWS에서도 자체적으로 이슈라고) Job 스크립트의 수정 내용이 Glue Studio에서는 반영되어 보이지 않는다. 스크립트를 수정해서 사용할 경우 Glue Studio가 아닌 Glue Job에서 작업을 수행해야 한다. 


6. 결과 파일의 숫자를 줄이고 사이즈를 늘리려면 스크립트를 직접 수정해야 한다. https://aws.amazon.com/ko/premiumsupport/knowledge-center/glue-job-output-large-files/?nc1=h_ls




매거진의 이전글 [ES] 대소문자 구분하지 않고 검색
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari