데이터 분석의 필수 언어
이제 본격적으로 Python 프로그래밍 언어를 이용하여 데이터 분석을 실시해 보자. 앞서 말했듯이, 본 도서는 처음 데이터 분석을 접하는 실무자들을 위해 작성하였고, 프로그래밍 언어를 이용한 개발보다 데이터 분석을 하는 것에 초점을 맞춰 분석에 꼭 필요한 부분만 설명을 하였다.
1) Python 프로그래밍 언어
왜 여러 가지 프로그래밍 언어 중, Python 프로그래밍 언어일까? 데이터 분석하면 Python언어가 가장 먼저 떠오르는 이유는 뭘까? 이는 Python 언어의 여러 가지 특성에 의해 데이터 분석 프로그래밍 언어로 선택된 것인데, 아래와 같은 특성이 데이터 분석에 잘 적용할 수 있게 만들어졌다.
- 쉽고 간편한 언어
가장 큰 장점 중 하나는, 다른 프로그래밍 언어에 비해 배우고 사용하기가 쉽다. Python 자체 구문 및 함수도 매우 직관적이며, Python 프로그래밍 언어와 함께 지원되는 여러 프로그램들, 특히 데이터 분석에서 Jupyter Notebook의 경우 사용자가 프로그래밍을 매우 간편하고 쉽게 할 수 있도록 지원해 준다.
- 대화식 프로그래밍 언어
컴퓨터와 실시간으로 대화하며 프로그래밍을 할 수 있다. C언어나 C++과 같은 근본적인 언어는 컴파일(Compile, 사람의 언어를 컴퓨터가 이해하는 형태로 바꾸는 작업, 컴퓨터에 작성된 코드를 기계어로 바꾸고, 바뀐 기계어가 명령을 수행한다)이라는 작업을 통해, 전체 코드가 프로그램형태로 바뀌고 실행된다. 그리고 중간에 오류가 발생하면 컴파일 후 오류를 수정할 수 있다.
그러나 Python 언어는 컴퓨터에게 입력하는 값 한 줄씩 바로 반환하며, 코딩의 결과를 즉각적으로 확인할 수 있다. 이런 특징을 가진 언어를 인터프리터(Interpreter, 사람의 언어를 컴퓨터가 이해하는 형태로 바꾸는 작업에서, 컴퓨터에 작성된 코드를 기계어로 바꾸는 작업을 건너뛰고, 바로 코드를 수행) 언어, 대화식 프로그래밍 언어라고 부른다. 이는 데이터 분석에서 빠른 시간 내, 결과를 바로 확인하며 인사이트를 찾는 특성이 잘 반영될 수 있는 특징이다. 앞서 언급한 Jupyter Notebook 프로그램은 이러한 Python의 특성을 반영해, 하나의 Cell 마다 결과를 바로 출력해 주는 형태로 프로그램이 구성되어 있다.
- 강력한 라이브러리
라이브러리는 특정 기능이나 동작을 일일이 코딩하지 않아도 바로 쓸 수 있게 만들어진 함수들의 집합이다. 데이터 시각화를 위한 코딩을 하려고 할 때, 타 언어처럼 여러 가지를 한꺼번에 코딩할 필요 없이, 프로그래머들이 만들어놓은 라이브러리를 가져와 사용하면, 한 줄에 원하는 기능을 구현할 수 있다. 이러한 라이브러리가 데이터 분석에 특화되어 많이 개발되어 있는 상태이며, 라이브러리를 쉽게 사용할 수 있도록 튜토리얼이 제시되어 있다.
- Open Source
기업이나 연구소에서 Python을 사용하는 가장 큰 이유는 Open Source라는 Python의 강력한 특징 때문이다. Open Source는 따로 구매 비용을 지불하지 않고 해당 프로그램이나 프로그래밍 언어를 사용할 수 있는 형태를 통틀어 말한다. 기계학습을 구현하려 하거나, 딥러닝을 구축, 또는 웹에서 데이터를 자동으로 수집해 와 분석하는 데이터 플랫폼을 구축할 때도, 요금이 발생하지 않는다. 그리고 각 기능을 만족하는 모든 라이브러리는 인터넷에 오픈되어있다.
이러한 Python의 강력한 특징들이 데이터 분석을 빠르고 쉽게 할 수 있도록 만들었고, 현재는 데이터 분석에 있어서 최대 규모의 커뮤니티를 형성하며 세계 많은 데이터 분석가들이 Python 프로그래밍 언어를 이용하고 있다.
Python 온라인 수업 : https://youtu.be/GnL7OYDXUNE