데이터 과학 기반의 파이썬 빅데이터 분석 | 이지영 | 한빛아카데미
SQL과 NoSQL 기반의 데이터베이스 입문 | 박성진 | 생능
이토록 쉬운 머신러닝 & 딥러닝 입문 | 홍승백 | 루비페이퍼
어딜 가나 '데이터'란 말이 들립니다. 데이터는 새로운 석유라는 둥, 미래 세대에게 데이터 리터러시를 가르쳐야 한다는 둥, 여기저기서 데이터의 중요성을 강조하지 못해서 안달입니다. 일반적인 의사결정은 물론이고 일상 속의 다양한 알고리즘, 최근에는 AI에까지 데이터가 주요하게 활용되니 데이터가 중요한 건 사실입니다. 그러나 데이터를 지나치게 강조하는 흐름은 데이터와 친하지 않은 보통 사람들의 불안을 크게 자극하기도 합니다. 데이터를 핵심 원료로 하는 생성형 AI의 비약적 발전 이후로 이러한 불안은 공포에 가까워졌습니다.
데이터는 기회인 동시에 위협입니다. 데이터의 유용성은 취하면서도, 불안 요소를 인지하고 대비하려면 어떻게 해야 할까요? 가장 좋은 접근은 데이터를 직접 다뤄보는 것입니다. 데이터를 수집하고, 분석하고, 활용하는 법을 익히고 직접 해보는 과정에서 데이터의 가능성과 한계를 모두 알 수 있기 때문입니다. 그런데 데이터과학자도, 개발자도, 이공계 전공자도 아닌 사람이 할 수 있을까요? 그럼요! 노트북이나 컴퓨터만 있다면 누구든지 할 수 있습니다. 이 과정을 도와줄 가이드가 있다면 훨씬 좋겠죠. 이번 글에선 여러분의 데이터 입문을 도와줄 책들을 소개합니다.
본격적으로 책을 추천하기 전 먼저 드리고 싶은 말씀이 두 가지 있습니다. 첫 번째는 기초적인 통계학 개념만 알고 있어도 훨씬 수월하게, 또 깊게 이해할 수 있다는 것입니다. 통계학을 전혀 배워보신 적이 없다면 쉽고 재밌기로 유명한 『세상에서 가장 쉬운 통계학입문』(고지마 히로유 지음·박주영 옮김, 지상사)를 먼저 읽어보시는 걸 추천합니다. 두 번째는 완벽하게 이해하려 너무 애쓰실 필요 없다는 것입니다. 이해되는 선에서, 할 수 있는 선에서 따라가보시면서 감만 잡으셔도 충분합니다. 시험공부 하듯이 연습 문제를 잡고 씨름할 필요는 전혀 없습니다. 이론도 좋지만, 실습에 중점을 두고 직접 데이터를 다뤄보는 경험이 훨씬 중요합니다.
데이터 과학 기반의
파이썬 빅데이터 분석
이지영 지음 | 한빛아카데미 | 2020
의사결정을 위한 데이터 분석은 가장 기본적이면서도 강력한 데이터 활용법입니다. 직관이나 선입견이 아닌, 실제 세상의 관측치들을 분석하여 얻은 통찰은 현상을 '제대로' 파악하게 합니다. 정확한 인식을 바탕으로 한 의사결정은 효과적일 수밖에 없겠죠. 더 나아가서, 데이터는 이미 문제의 답을 품고 있다고 볼 수도 있습니다. 그렇다면 우리의 역할은 데이터 무더기 속에서 답을 찾아내는 것이겠습니다. 이 책은 수많은 데이터 집합 속에서 의미 있는 지식을 끄집어내는 방법, 즉 데이터를 분석하는 방법을 담고 있습니다. 데이터과학과 빅데이터에 대한 개략적인 설명부터 시작해 데이터 분석의 도구가 되는 프로그래밍 언어인 파이썬 기초와 데이터를 직접 수집하는 방법인 크롤링, 기본적인 통계적 분석과 시각화, 텍스트와 지리 정보 분석, 회귀·분류·군집·텍스트마이닝 등의 머신러닝 프로젝트까지 꼭 필요한 내용들로 채워져 있습니다. 물론 더 깊이 들어갈 수야 있겠지만, 비전문가가 활용하기에는 충분하고도 남습니다. 독자가 따라 해볼 수 있는 프로젝트가 풍부하게 담겨 있다는 점이 큰 장점입니다.
SQL과 NoSQL 기반의
데이터베이스 입문
박성진 지음 | 생능 | 2023
당연한 얘기지만 데이터를 분석하려면 먼저 데이터가 있어야 합니다. 그러나 항상 내게 필요한 데이터가 이미 존재하는 것은 아닙니다. 내 회사의 데이터를 분석하고 싶다면, 직접 데이터를 저장하고 처리해야 합니다. 데이터를 체계적으로 담는 저장소를 '데이터베이스'라고 합니다. 이미 존재하는 데이터를 분석하는 것만큼이나 데이터베이스를 설계하고 운용하여 데이터를 직접 만들어내는 것 역시 중요합니다. 이 책은 데이터베이스와 관련된 기본 개념부터 관계 대수 등의 논리적 기반, 데이터를 다루는 언어인 SQL, 정규화와 E-R 모델 등의 데이터베이스 모델링, 빅데이터 운용을 위한 NoSQL 데이터베이스까지 데이터베이스 활용에 필요한 이론과 실제가 빠짐없이 담겨 있습니다. 데이터베이스에 대한 사전지식이 전혀 없는 입문자도 체계적으로 학습할 수 있다는 점이 매력적입니다. 배운 내용을 바탕으로 데이터베이스를 활용한 서비스를 만들어보는 실습도 있어 응용을 돕습니다.
이토록 쉬운
머신러닝 & 딥러닝 입문
홍승백 지음 | 루비페이퍼 | 2021
인공지능은 현시대의 큰 화두 중 하나입니다. 특히 2022년에 공개된 chatGPT는 인공지능을 향한 관심의 정점에 있습니다. chatGPT는 머신러닝의 일종인 딥러닝을 통해 만들어졌습니다. 그리고 머신러닝을 위한 재료가 바로 데이터입니다. 이처럼 인공지능이 데이터를 이용해 스스로 학습하는 방식인 기계학습은 일반적인 데이터 분석으로는 구현할 수 없는 새로운 가능성을 열어줍니다. 이 책은 머신러닝과 딥러닝을 누구나 이해할 수 있도록 쉽고 친절하게 설명합니다. 쉽다고 해서 대충 설명하는 것은 아닙니다. 각각의 원리를 명확하게 이해시키면서 다양한 실습까지 갖춰 부족함이 없습니다. 설령 책에서 배운 기법을 실제로 활용하지 않는다 하더라도, 인공지능을 향한 극단적인 기대와 우려가 넘치는 상황에서 인공지능의 기본 원리를 이해할 수 있다는 것만으로도 이점이 있습니다. 머신러닝과 딥러닝 자체는 물론이고 데이터를 다루는 방법도 설명하고 있어 직접 써먹기도 좋습니다.