brunch

You can make anything
by writing

C.S.Lewis

by 빅데이터스터디 Sep 08. 2021

[학습 플랜] 십 주 안에 영부터 데이터 분석 입문까지

데이터 분석에 관심이 있는 분들 위한 특집


안녕하세요, 빅데이터스터디입니다.

Facebook계정@bigdatastudy 를 구축하시고 최신한 데이터 정보를 알아보세요~




 "문학계 사람들이 데이터 분석 잘할 수 있습니까?"

 "프로그래밍 경험이 없지만, 데이터 분석가가 될 수 있을까요?"

 "데이터 분석을 공부한다면, R 및 Python을 공부해야 합니까?" 등은 자주 묻는 이야기입니다.


사실 데이터 분석은 생각보다 어렵지 않습니다. 제가 아는 사람 중에 HR 또는 마케팅이 데이터 분석에 전직한 사람이 적지 않습니다. 데이터 분석에서 문제점에 대한 인식, 분석, 그리고 결과에 대한 설명은 데이터 분석 도구와 프로그래밍 등의 데이터 분석 기법보다  훨씬 더 중요합니다.


그렇다고 해도 단시간에 우수한 데이터 분석가가 될 것은 쉽지 않습니다. 그래서 이번 시간에는 데이터 분석의 기초 지식을 돌이켜 십 주 정도의 학습 계획을 요약했습니다.



데이터 분석가 Learning Path 

    데이터 분석의 마인드

 Excel 상급

 데이터베이스 및 SQL 소개

 통계학

 데이터 분석 소프트웨어의 운용

 데이터 시각화

 비즈니스 프레임 워크

 Python / R 언어

 비즈니스 이해와 지표 설계

 그로스 해커 (Growth Hacker) : 데이터는 성장의 원동력


1주 차 : 데이터 분석의 마인드가 우선입니다.

왜 데이터 분석의 마인드는 중요합니까?

예를 들어, 문제점을 분석할 때 마인드가 없으면 어디서 시작해야 할지 모를 것입니다.

따라서, 데이터 분석의 마인드를 길러야 합니다. 이렇게 하면 문제를 당할 때 신속하게 해결 방법을 찾을 것입니다.

자주 사용하는 데이터 분석 사고법 :


1) 로직 트리

문제를 분류하고 분해하여 전면적으로 문제를 생각합니다. 먼저 생각하는 요소를 작성하고 다음 로직 트리에 정리합니다. 자신의 생각을 마인드 맵에 적으면 더 좋겠습니다.


이것은 제가 사용하고 있는 마인드 맵 소프트웨어입니다.


2) 수식화

구조화하고 요소 간의 상호 관계를 찾아 +, -, ×, ÷ 등의 계산을 해 봅니다. 이러한 요소를 수치화하고 분석하여 가설을 검증할 수 있습니다.


3) 비즈니스 이해

데이터 분석의 다른 목적은 바로 업무 상황을 근거로 하고, 그 구체적인 상황과 결부하여 분석을 실시하고, 그 분석 결과를 사업에 운용하는 것입니다. "구조화 + 수식화"결론은 결국 현상이며, 결과의 원인을 설명하지 못합니다. 그래서 비즈니스 관점에서 문제점을 생각하고, 결과 뒤에 숨어있는 원인을 규명하는 것도 중요합니다.


비즈니스의 이해 단계: ① 업무 부서와의 교류를 강화합니다. ② 비즈니스 (업무 부서와 고객) 관점에서 생각합니다. ③ 경험을 쌓습니다. 


또한 이러한 데이터 분석의 마인드는 특정 업무 현장에서 사분법, 다차원 법, 가설법, 인덱스 법, 28 법, 대비 법, 패널 법 등 데이터 분석 사고법과 결합하는 경우가 많습니다.

데이터 분석의 사고법은 관점과 사고방식을 제공하는 메커니즘으로 사물과 문제에 대한 관점을 구축하는 데 도움이 됩니다. 사고법의 학습과 훈련을 통해 성공의 가능성을 높일 수 있습니다.



2주 차 : Excel 상급

Excel의 학습은 단계별 (Step by step) 과정입니다.


기초 : 간단한 테이블의 데이터 처리, 필터링, 정렬

함수와 공식 : 공통 함수, 고급 데이터 계산, 배열 식, 다차원 참조, function

시각화 그래프 : 그래픽 아이콘 표시, 고급 차트, 차트 플러그인, 피벗 테이블, VBA 프로그램 개발


저의 방식은 기초 지식을 대체로 공부한 후, 사례 연습하는 것입니다. 엑셀로 어떻게 문제를 잘 해결하는지 생각하십시오. 차트 플러그인의 활용도 필요합니다.


1) 데이터 분석 템플릿을 만드는 데 반드시 알아야 하는 Excel 함수 :

날짜 함수 : day, month, year, date today, weekday, weeknum. 날짜 함수는 데이터 분석에 필수적인 기능입니다. 이를 통해 데이터의 표시를 제어하고 지정 범위의 데이터를 검색할 수 있습니다.

수학 함수 : product, rand, randbetween, round, sum, sumif, sumifs, sumproduct

통계 함수 : large, small, max min, median, mode, rank, count, countif, countifs, average. 평균, 최댓값, 최솟값, 중앙값 등은 자주 사용되는 함수입니다.

쿼리와 참조 함수 : choose, match, index, indirect, column, row, vlookup, hlookup, lookup, offset.

vlookup 함수를 활용할 수 없으면 복잡한 서류를 작성할 수 없습니다.

텍스트 함수 : find, search text, value, concatenate left, right, mid, len. 텍스트 함수는 데이터 정리 단계에 사용됩니다.

논리 함수 : and, or false, true if, iferror.


2) 피벗 테이블

피벗 테이블의 역할은 대량의 데이터를 대화형 보고서로 전환하는 것입니다. 피벗 테이블에는 다음과 같은 중요한 기능이 있습니다.

소계, 평균, 최댓값, 최솟값, 자동 정렬, 자동 검사, 자동 그룹화 비율, 전분기 대비, 동기 대비, 사용자 정의 수식.


3주 차 : 데이터베이스의 원리 및 SQL

데이터는 어디에서 얻을 수 있습니까? - 데이터베이스에서.

데이터를 어떻게 검색합니까? --SQL.

입문 단계에서 데이터베이스를 학습하지 않아도 됩니다. 자주 사용하는 데이터베이스의 유형을 알고, 그리고 데이터 쿼리 재 인코딩, 추가 및 정리를 학습하는 것이 우선입니다. 또한, 데이터 정렬, 데이터의 교차, 데이터 변환, 데이터 테이블의 병합 등을 학습하는 것이 좋습니다. 데이터 가져오기 및 내보내기이라면 다른 도구도 사용할 수 있습니다. 데이터베이스에 연결하려면 ODBC 및 기타 인터페이스를 사용할 수도 있습니다.

Progate 과정으로 기초를 배우고 온라인 편집기에서 프로그램을 실행 결과를 볼 수 있습니다. SQL 학습은 세 가지 과정으로 나뉘어 학습 끝난 후 실질적인 연습 문제가 있습니다.


다음은 핵심 기술들입니다.


1) select로 필드를 추가하고 필요한 데이터를 찾습니다.

select cola, colb, colc into newtable from oldtable wherecola = 'x'and colb is not null;


이 글로 대부분의 데이터를 검색할 수 있습니다.


"select"의 뒤에는 포드입니다. "into newtable"는 새 테이블에 넣는 것을 말합니다. 새 테이블 없는 경우, 데이터를 검색합니다. "where"뒤에는 조건입니다.

select cola from oldtable group by cola 들도 자주 사용됩니다.


다음은 join, union 및 모호 검색입니다.


2) alter로 필드를 추가하고 제거합니다.

alter로 필드와 기본 키의 추가 및 삭제를 실현할 수 있어 매우 효과적입니다.

a : 필드 추가

alter table tablename add colname varchar;

필드를 추가할 수 있습니다. varchar는 데이터의 유형입니다.

b : 필드 삭제

alter table tablename drop column colname;


3) update를 사용하여 데이터를 업데이트합니다.

a : 하나의 고정 값으로 업데이트합니다.

update table set col = 1;

b : 다른 테이블에서 데이터베이스를 설치하고 업데이트합니다.

update table set col = tableb.col from tablebwhere table.id = tableb.id;


이것은 'table'과 'tableb "두 테이블의 id를 참조하는 것입니다.



4주 차 : 수학 통계

통계학은 데이터 분석가가 필요한 기초 지식이라고 할 수 있습니다.


데이터를 추출하고 해결해야 할 문제

가장 일반적이고 예측 가능한 관찰 결과는 무엇입니까?

관찰의 제한은 무엇입니까?

데이터는 어떻게 보입니까?


이상의 문제를 해결하려면 통계 도구를 사용해야 합니다. 통계학을 잘 이용하면 분석의 깊이와 전문성을 높일 수 있습니다.

따라서, 넷째 주에 학습할 지식은 다음과 같습니다.


1) 중심화 경향 (중앙값, 모드, 평균)

2) 변동 (사 분 위수, 사 분위 범위 이상 값 분산)

3) 표준화 (표준 점수)

4) 정규 분포

5) 표본 분포 (중심 극한 표본 분포)

6) 추정 (신뢰도, 신뢰 구간)

7) 가설 검정

8) t 검정


https://bellcurve.jp/statistics/course/ 이 사이트에서 통계학의 지식 (초급 편, 기초 편, 중급 편)와 온라인에서의 연습이 있습니다.


5주 차 : 데이터 분석 소프트웨어의 운용

통계학의 기초 지식을 공부한 후 데이터 분석을 시작할 수 있습니다.

다섯째 주에 Excel 이외의 분석 도구를 마스터해야 합니다.


여기에서 SPSS, R, Python 등의 도구를 떠나서 먼저 BI 도구  공부합시다. BI 도구는 정리된 데이터를 신속하게 분석하고 Excel보다 상당히 좋은 효과를 보이고 있습니다. 대부분의 초보자들이 사용하기 쉽다고 생각합니다.


또한 BI 도구로 데이터 변환 및 가공할 수 있습니다. 하지만 BI 도구를 잘 사용할 수 없는 경우 여전히 SQL로 처리하는 것이 좋습니다.


6주 차 : 데이터 시각화

데이터 시각화는 간단한 데이터 분석의 과정이 아닙니다.

어떻게 적절한 차트를 선택합니다? 경향, 분포, 기간, 장소 등을 고려해야 합니다.

외관이 좋은 시각 효과를 달성하고 싶으면 색상, 글꼴 등의 스타일을 설정해야 합니다.

가장 중요한 것은 레이아웃 설계, 즉 테마 지표 간의 관계 및 시각화의 목적을 명확하는 것입니다.


데이터 시각화하는 방법은 다음 네 가지가  있습니다.

1) Excel에서 일반 차트를 만듭니다. 동적 차트, 필터 표시 등의 복잡한 것들이 VBA로 이룰 수 있습니다.

2) R 및 Python과 같은 데이터를 시각화하는 차트 패키지를 이용합니다.

3)Echarts, HighCharts, D3.js 등의 오픈 소스 차트 플러그인. 이것은 소프트웨어 제품과 도구를 개발할 때 일반적으로 사용되는 방법입니다.

4) 데이터 시각화 도구. 예를 들어, FineReport의 자체 개발 HTM5 그래프는 대부분의 시각화 요구를 만족합니다. 특히 gis지도 맵에서 굉장히 멋진 시각 효과를 낼 수 있습니다. 필요하다면 타사 Echarts를 통합할 수도 있습니다.

 

데이터 분석 및 시각화 도구에 대해 당신도 알아야 할 데이터 시각화 의 모든 것 참조하십시오.


출처: FineReport

출처 : FineReport

데이터 시각화 툴: FineReport

관련 자료: 엑셀 대시보드 보다 초간단 대시보드 만들기 Step 가이드


7주 차 : 비즈니스 프레임 워크

사분법, 다차원 법, 가설법, 인덱스 법, 28 법, 대비법, 패널 법 등의 데이터 방법에 따라 특정 업무 장면은 일반적인 비즈니스 프레임 워크가 있습니다. 일반적으로 사용되는 프레임 워크는 RFM 모델, 패널 분석, 고객 라이프 사이클 바구니 분석입니다.


일곱째 주에 비즈니스 프레임 워크를 학습합니다. 깊이 이해하면 업무 현장에 활용할 수 있습니다.


8주 차 : Python / R 언어

데이터 분석 능력 향상과 취업의 성공을 위해 반드시 Python / R 언어를 습득해야 합니다.

데이터 분석을 위한 프로그래밍 언어는 Python 및 R입니다. R 언어는 통계 분석 및 그리기 등에 적합합니다. Python은 인기, 실용성, 유용성 면에서 최고의 언어라고 생각하기 때문에 먼저 Python의 학습을 추천합니다.


Python에 지점이 많이 있습니다. 하지만, 여기는 데이터 분석이므로 《Head First Python-Basics of Python to Learn with Your Head and Body》을 추천합니다.


학습 사이트라면 Code Academy를 추천합니다. 그것은 Python에 대한 기본 지식과 연습을 포함하고 있고 모든 연습도 있습니다. https://www.codecademy.com/catalog/language/python


다음으로, Numpy, Pandas, Matplotlib 세 라이브러리를 공부할 것입니다.

Numpy는 Python에 의한 과학 계산의 기본 패키지입니다. Numpy을 잘 이해하면 Pandas 등의 다른 도구를 효과적으로 사용하는 데 도움이 됩니다. N 차원 배열, 인덱스 배열, 슬라이스 정수, 인덱스 배열, 변환, 일반 함수 배열에 의한 데이터의 처리와 일반적인 통계 기법 등이 포함됩니다.

Numpy Basics Tutorial에서 Numpy 함수와 그 사용법 확인합니다. https://docs.scipy.org/doc/numpy-1.15.0/user/basics.indexing.html

Pandas는 고급 데이터 구조 및 운영 도구를 제공하기 때문에 Python의 데이터 분석을 더 빠르고 쉽게 할 수 있습니다. series, data frams, axis에서 데이터 삭제, 손실 데이터 처리 등이 포함됩니다.

Index Pandas로 Pandas를 공부할 수 있습니다. https://pandas.pydata.org/pandas-docs/version/0.22/generated/pandas.Index.html

Matplotlib는 강력한 Python 시각화 라이브러리입니다. 몇 줄의 코드에서 분산 형, 선 그래프, 히스토그램, 상자 그림 등을 그릴 수 있습니다.


9주 차 : 업무 지식과 지표 설계

전 여덟 주 학습 내용에서 보면, 이 계획은 사업 장면의 데이터 분석을 중시하는 것을 알 수 있습니다. 데이터 분석가로 단기간에 회사나 부서의 비즈니스를 이해하고 업무 지식도 갖춰야 합니다. 입문 단계에서 먼저 로직 및 데이터 분석 능력 향상에 집중하고, 다음에 일반 업무를 처리하고, 업무 지식도 습득합니다.


나머지는 지표 시스템의 설계입니다. 대부분의 데이터 분석가의 직무는 "부서 데이터의 지표 시스템 구축 및 최적화 '입니다. 뛰어난 데이터 지표 시스템은 데이터 요구 사항을 신속하게 해결할 수 있을 뿐만 아니라 데이터의 가치를 발굴하고 현재 가장 고려해야 할 문제를 반영합니다. 따라서 이번 주에는 사업 지표를 어떻게 정리하는 것을 습득해야 합니다.


10주 차 : 그로스 해커 (Growth Hacker) : 데이터는 성장의 원동력

데이터 분석가로 회사에 기여하려면 먼저 자신의 가치와 미래의 진로를 명확히 합시다.


예를 들어, 최근 매우 유행하고 있는 데이터 분석가의 종류는 그로스 해커 (Growth Hacker)입니다. 그의 직무는 그로스로 데이터를 분석합니다. 이번 주에는 전통 및 Web 업계에서 데이터를 기업 성장의 원동력이 되는 성공 사례를 이해하고 다음의 문제를 생각해보십시오.


1. 그로스 해커가 되기 위해 어떤 준비를 합니까?

2. 일할 때 타인에게 데이터를 제공하는 것을 어떻게 피할 수 있습니까?

3. 데이터 활용률을 어떻게 추진하여 데이터의 가치를 최대화 발휘하시겠습니까?

4. 주위의 사람들과 경영진이 데이터의 가치에 대한 인식을 어떻게 바꾸고 있습니까?


데이터 분석에 관심이 있으시면 페이스북에서 우리 팔로우해주세요~ @bigdatastudy 


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari