2011년 11월 29일 (화) - 구글 AI 리서치 블로그
Google은 고품질 시스템 연구를 홍보하는 데 큰 관심을 가지고 있으며 실제 업무량에 대한 정보를 학술 커뮤니티에 제공하는 것이 도움이 될 수 있다고 생각합니다.
이를 지원하기 위해 2010년 Google 프로덕션 클러스터 (Google Cluster Data 리서치 블로그)에서 소량 (7 시간)의 리소스 사용 정보 샘플을 발표했습니다. UC 버클리, CMU, 브라운, NCSU 등 약 12여 명의 연구원들이 이를 활용했습니다.
최근에 더 큰 데이터셋을 출시했습니다. 더 큰 셀(약 11k 시스템)의 경우 더 긴 시간 (29 일)을 다루며 다음을 포함하여 훨씬 더 많은 정보를 포함합니다.
스케줄링 실험을 허용하기 위해 원래의 자원 요청
요청 제한 및 기계 속성
기계 가용성 및 장애 이벤트
작업 종료에 대한 몇 가지 이유
반복 또는 관련 작업을 식별하는 데 도움이 되는 (난독 화 된) 작업 및 작업 제출자 이름
더 많은 유형의 사용 정보
일부 머신의 CPI (명령 당 주기) 및 메모리 트래픽
이 추적은 주로 자원 요청 및 사용량에 대한 데이터를 제공합니다. 여기에는 최종 사용자, 데이터 또는 스토리지 시스템 및 기타 서비스에 대한 액세스 패턴에 대한 정보가 없습니다.
이 링크를 통해 자세한 정보를 확인할 수 있습니다. 이 링크는 (짧은 설문지 후) 액세스 지침, 데이터 스키마에 대한 설명 및 데이터의 파생 방법 및 의미에 대한 정보를 제공하는 사이트로 연결됩니다.
이 데이터가 클러스터 관리에 대한 광범위한 연구를 촉진하기를 바랍니다. 유용하다고 생각하거나 분석 도구를 공유하거나 개선 방법에 대한 제안이 있으면 알려주십시오.
원본 제목: 더 많은 Google Cluster 데이터(More Google Cluster Data)
게시자 : John Wilkes, 수석 소프트웨어 엔지니어
원본 링크: https://ai.googleblog.com/2011/11/more-google-cluster-data.html
구글 클러스터 데이터 블로그(한글): https://brunch.co.kr/@synabreu/92
Google Cluster Data 블로그(영문): https://ai.googleblog.com/2010/01/google-cluster-data.html
이 블로그는 2011년 11월 29일(화), Google AI 리서치 블로그 기사를 영한 번역한 것입니다. 또한 이 번역 글은 정보 공유 목적으로만 작성했으므로 어떠한 상업용으로 사용할 수 없으며, 원본 저작물 모두 구글에게 저작권이 있음을 알려 드립니다. (First Draft Version)