추천 대상 : 오늘도 이 테이블 이 컬럼 정의는 이게 맞나 내가 찾고 있는 것의 테이블은 이게 맞나 매일을 헤매고 있는 데이터 분석가, 데이터 엔지니어, 그리고 데이터 직군의 효율성을 높이기 위해 고심 중인 매니저 이상의 직군
메모 : 아직 2장 읽고 있는데 내용이 좋다!
주변에서 sql 배우면 내가 원하는 데이터 다 볼 수 있는 거 맞죠? 라는 질문을 꽤 받았었는데 내 답변은 항상 같았다.
“아니요, 원하는 데이터가 이게 정말 맞는지 찾는데 시간을 쓰게 될 거예요. 회사 내 문서가 잘 되어 있지 않다면요.(8-90%는 문서 업데이트가 되지 않고 새로운 문서만 생성되어 사혼의 구글 조각이 많아져만 간다.)”
그래서 현재는 데이터 카탈로그 서비스도 생기고 있는 추세인데 이런 맥락을 반영하는 서비스라고 생각한다.
항상 현장은 데이터 분석가도 부족하고 엔지니어도 부족해서 병목이 생기는데 어떻게 데이터를 셀프서비스화 할 수 있는가? 에 대한 내용을 자세히 알려주고 있다.
데이터 발견이 복잡한 이유는 기업 내에서 지식 확장이 어렵기 때문이다. 데이터 팀은 보통 쉽게 접근할 수 있고 믿을 만한 팀 지식으로 작게 시작 한다. 그러나 데이터가 증가하고 팀 규모가 커지면 부서 이기주의가 발생하고 진실을 출처는 단 하나가 아니게 된다. 오늘날에 데이터 사용자는 다양한 품질, 복잡성, 관련성, 신뢰성을 가진 데이터리소스에 바다를 효율적으로 탐색해야 한다.
팀 지식 메타데이터와 관련된 세 가지 주요 도전 과제는 다음과 같다.
데이터 사용자가 팀 지식을 쉽고 직관적으로 공유 하는 것은 어렵다 .
메타 데이터는 자유 형식이지만 정확성을 보장하기 위해 검증 되어야 한다.
정보의 품질이 모순 되는 경우 특히 검증 하기 어렵다. <- (여기서 울면 되나 생각함)