About 'Human-Centered Data Scientist'
위의 제목은 저의 진로를 정하면서 당당히 타이틀로 내건 '사회 혁신을 위한 인간 중심의 데이터 사이언티스트'입니다. 아직 갈길이 멀지만 앞으로 나아갈 방향을 정하면서 간단히 정리를 해보았습니다.
참고로 모든 길을 정해진 것이 아니므로 사람마다 각자의 길이 있다고 생각합니다. 그러므로 이번에 제가 정리하는 글은 저의 진로를 정리하면서 비슷한 방향을 생각하시는 분들에게 참고가 되면 좋을 것 같아서 적게 되었습니다.
먼저, '사회 혁신을 위한 인간 중심의 데이터 사이언티스트' 이름이 참으로 긴데요. 크게 3가지로 나눌 수 있습니다.
인간 중심의(Human-Centered)
데이터 사이언티스트(Data Scientist)
사회 혁신을 위한(Social Innovation)
데이터 사이언티스트에 대해서는 앞서 작성한 글 '데이터 사이언티스트가 되어보자, 근데 그게 뭐예요?'로 대신하겠습니다.
이 말을 사용한 저의 의도는 기술이 발전할수록 그 중심의 '사람'이 있어야 한다는 의도에서 '인간 중심'이라는 말을 붙였는데요. 이는 '사람을 위한 기술'의 측면과 기술이 잘 작동하기 위해서는 '사람(사용자/고객)'을 중심으로 기술이 개발되어야 한다는 측면을 포함하고 있습니다.
혹시 이런 말이 있을까 싶어서 검색을 해보았는데요. 이미 있었습니다.
우리나라에서는 아직 이런 이름이 없지만, 이미 미국에서는 Human-Centered Data Scientist라는 이름을 사용하고 있었습니다. 자세히 살펴보니 학술적으로 사용되고 있는 용어였습니다. 요즘은 워낙 융합된 학문이 많이 생기기 때문에 이런 학문이 생긴 것 같습니다.
'Human-Centered'라는 용어는 본래 디자인 분야에서 많이 사용되는 말입니다. Human-Centered Design이라든지 Human-Centered Computing처럼 무엇인가 디자인하는 과정에서 사람 중심으로 문제를 발견하고 해결해야 한다는 의미입니다.
그럼 'HCDS(Human-Centered Data Scientist, 이하 HCDS)'에 대해서 미국의 대학에서는 어떻게 다루고 있는지 살펴보겠습니다.
검색 가장 상단에 있는 워싱턴 대학의 데이터 사이언스 석사과정 프로그램에서 정규 과목인 DATA 512: Human-Centered Data Science 의 자료를 다음 링크에서 확인해 보실 수 있습니다.
> 워싱턴 대학 데이터 사이언스 석사과정 DATA 512 강의 자료 링크
This course focuses on fundamental principles of data science and its human implications. We’ll cover data ethics; data privacy; differential privacy; algorithmic bias; legal frameworks and intellectual property; provenance and reproducibility; data curation and preservation; user experience design and usability testing for big data; ethics of crowdwork; data communication; and societal impacts of data science.
< DATA 512: Human-Centered Data Science, 과목 설명>
위의 학과 설명을 보시면 크게 3가지로 나눌 수 있습니다.
보안/윤리/위험성
UX Design / HCD
사회적 기여(for Social Good)
비중으로 보면 보안/윤리/위험성에 대한 부분이 많이 차지하는데요. 그만큼 데이터를 활용했을 때에 미치는 영향이 크기 때문이라고 생각됩니다. 그다음으로는 사용자 중심의 디자인에 대해 비중 있게 다루고 있습니다.
과목을 담당하시는 교수님은 Cecilia R. Aragon으로 Human-Centered Data Science Lab을 운영하고 계십니다.
그렇다면 다른 학교는 어떨까요?
UC Berkely의 Master of Information and Data Science (MIDS) 프로그램을 보면 Behind the Data: Humans and Valuesation and Data Science라는 과목이 있습니다.
Intro to the legal, policy, and ethical implications of data, including privacy, surveillance, security, classification, discrimination, decisional-autonomy, and duties to warn or act. Examines legal, policy, and ethical issues throughout the full data-science life cycle collection, storage, processing, analysis, and use with case studies from criminal justice, national security, health, marketing, politics, education, employment, athletics, and development. Includes legal and policy constraints and considerations for specific domains and data-types, collection methods, and institutions; technical, legal, and market approaches to mitigating and managing concerns; and the strengths and benefits of competing and complementary approaches.
<W231 Behind the Data: Humans and Valuesation and Data Science, 과목 설명>
위는 MIDS에 대한 과목 설명인데요. 과목명이 'HCDS'를 정확히 명시하지는 않지만 설명으로 보면 데이터 관련 정책, 윤리, 안전성 등에 대한 내용으로 앞서 워싱턴 대학의 과목과 비슷한 것을 알 수 있습니다.
앞에서 소개해드린 워싱턴 대학의 Cecilia R. Aragon 교수님이 UC Berkely에서 컴퓨터 과학을 전공하셨고 MIDS 프로그램의 교수님 중 한 분이신 Marti A. Hearst 교수님이 지도교수인 것을 보면 워싱턴 대학과 UC Berkely가 연관이 있는 것 같습니다.
그 밖에는 몇몇 학교에서 비슷한 과목과 프로그램을 운영하고 있는데요. 여러 가지 학문이 섞여 있는 분야이기 때문에 구체적이거나 명확한 학문 분야로 구분되어 있지는 않은 것 같습니다. 관련 논문도 몇 개를 찾을 수 있었는데요. 나중에 논문 리뷰를 통해 소개해드리도록 하겠습니다.
정리를 하면 학문적으로 'HCDS'는 데이터를 활용하는 데 있어서 1) 윤리와 안전성 2) 사용자/인간 중심의 디자인(UX) 크게 두 가지를 연구하는 학문이라고 정리할 수 있습니다.
다음은 사회 혁신을 위한 데이터 사이언티스트입니다. 이 타이틀은 간단한데요. 데이터 사이언스의 기술을 사회적으로 기여하는 데 사용하는 것입니다. 영문으로는 'Data Science for Social Good'이라는 말로 사용되고 있습니다.
이렇게 데이터를 활용해서 사회에 기여하는 사례에 대한 연구를 하는 기관이나 세미나도 있으며, 그리고 직접 이를 위해 기업 또는 비영리기구를 운영하는 곳도 있었습니다. 제가 정말 데이터 사이언티스로 전문가가 된다면 이곳의 프로젝트에 참여를 해보고 싶네요.
지금부터는 이런 일을 직접 하고 있는 사례에 대해서 소개해드리겠습니다.
가장 먼저 소개할 곳은 DataKind입니다. 제가 가장 인상 깊게 본 기관입니다. 뉴욕에 본부를 두고 있으며, 이미 인도부터 영국까지 다양한 곳에서 활동을 하고 있습니다. 크게 4가지 활동을 하고 있는데요.
DataKind Labs : Long-term projects that convene multiple stakeholders to develop cutting-edge, cross-sector solutions.
DataKind Corps : Long-term engagements that help organizations use data science to transform their work and their sector.
DataDives : Weekend-long, marathon-style events that help organizations do initial data analysis, exploration, and prototyping.
Community Events : Networking and quick consultation to help organizations begin their data science journey.
DataKind의 소속되어 있는 전문가부터 자발적으로 참여하고 있는 프로 보노(Pro Bono)까지 다양한 데이터 사이언티스트가 기업과 정부, 비영리기관들의 문제를 데이터를 활용해서 해결하여 사회적으로 기여를 하고 있습니다. (데이터 사이언티스트 벤 다이어그램으로 유명한 Drew Conway도 Co-Founder로 참여했네요.) 보다 자세한 소개는 위에 소개한 홈페이지와 아래 창립자인 Jake Porway의 TEDx 강연으로 대신합니다 :)
다음은 국제기구인 UN의 빅 데이터 이니셔티브인 Global Pulse입니다.
To accelerate discovery, development and scaled adoption of big data innovation for sustainable development and humanitarian action
<Mission of Global Pulse>
위의 미션으로 다양한 프로젝트를 진행하고 있으며, 인도네시아 자카르타(Jakarta), 우간다 캄팔라(Kampla), 미국 뉴욕(NYC) 총 3개의 Lab(연구소)를 운영하고 있습니다. 프로젝트 주제를 살펴보면 아래와 같이 빅 데이터를 기반으로 국제개발협력에 기여할 수 있는 연구를 진행하고 있는 것을 알 수 있습니다.
ESTIMATING SOCIOECONOMIC INDICATORS FROM MOBILE PHONE DATA IN VANUATU
USING FINANCIAL DATA TO UNDERSTAND MACROECONOMIC ISSUES IN CAMBODIA
저의 목표인 '사회 혁신을 위한 인간 중심의 데이터 사이언티스트'에 대해서 '인간 중심'과 '사회 혁신' 두 가지 측면에 대해서 살펴보았습니다. 마지막으로 저의 목표를 구체적으로 풀어서 설명하면 다음과 같이 설명할 수 있을 것 같습니다.
데이터를 활용하여 인간(사용자) 중심의 문제를 발견하고 솔루션을 디자인하며
이를 지속 가능한 비즈니스로 사람들에게 제공함으로써
더 나은 사회를 만들 수 있는 데이터 사이언티스트
저의 목표를 벤 다이어그램으로 만들어 보았습니다. 앞에서는 설명하지 않았지만 저는 지속 가능한 비즈니스(Business)를 수단으로 사회 혁신을 만들어 낼 수 있다고 생각하는데요. 사회 혁신, 임팩트, 스타트업, 비즈니스와 같은 주제에 대해서는 나중에 기회가 되면 다시 나눠보도록 하겠습니다.
위의 3개의 겹쳐 있는 원은 제가 지금까지 경험했던 것들 그리고 계속해서 공부 중인 분야인데요. 앞으로 저의 목표가 어떻게 바뀔지는 모르겠지만 지금까지 정리한 저의 목표를 이룰 수 있도록 더 많이 배우고 많은 분들과 나눌 수 있도록 하겠습니다.