데이터 과학

도서 주제사회과학
제 목데이터 과학
저 자존 켈러허, 브렌던 티어니외 지음
출판사김영사
출판일2019. 10. 02
ISBN9788934999171
이용 대상일반
가 격14,800 원
수상 내역
미디어
기관 추천

도서 상세정보 바로가기

핵심 개념부터 활용법과 성공 원칙, 윤리적 문제까지
인공지능, 빅데이터 시대를 살아가는 시민의 필수 교양
한 권으로 개념 잡는 데이터 사이언스

데이터 과학을 이해하기 위한 근본적인 아이디어와 개념 등을 개괄하는 책이다. 빅데이터, 인공지능, 딥러닝, 기계학습 같은 데이터 과학의 개념과 기술들이 어느새 업무는 물론 정치와 개인의 일상에까지, 깊이와 너비에서 전례 없는 영향을 미치고 있다. 자연히 데이터 과학에 관한 책도 많이 나와 있는데, 이런 책들은 크게 세 부류로 나눌 수 있다. 데이터 분석과 관련 프로그래밍 등에 대한 기술적인 내용을 주로 다루는 실용서, 빅데이터 시대를 소개하며 이른바 ‘4차 산업혁명’을 어떻게 맞아야 하는지 다루는 경영 및 자기계발서, 데이터와 디지털 문화의 위험과 이런 기술이 사회와 인간에 미치는 영향을 검토한 비판서가 그것이다.
아일랜드 더블린공과대학교에서 데이터 과학을 가르치는 존 켈러허와 브렌던 티어니가 함께 쓴 이 책은 균형 감각을 갖추고 이 세 분야를 모두 아우르고 있다. 두 저자가 굳건한 이론적 토대를 깔고 데이터 과학을 소개하고 있어 데이터 과학의 장밋빛 미래에 대한 환상을 심어주거나, 데이터 관련 기술이 인간과 사회를 어떻게 바꾸고 있는지 정도만 소개하는 책들과는 분명한 차별점이 있다. 인공지능과 빅데이터 시대를 살아가는 시민으로서 각자가 속한 조직과 사회, 가족이 어떤 종류의 데이터 세계에 살길 원하는지에 관해 목소리를 내려면 데이터 과학이 무엇이고 왜 중요하며, 어떻게 작동하고, 무엇을 할 수 있고 할 수 없는지 알아야 한다. 그 핵심 토대를 제공하는 흔치 않은 책이 바로 이 책 《데이터 과학》이다.

알고리즘은 모든 문제를 해결할 수 있다?
데이터 과학에 대한 오해와 진실

정치 분석, 사회 연구, 도시 계획, 마케팅과 조직 효율화 등 데이터 과학이 사회 각 분야에서 점점 더 많이 쓰이다 보니 이에 따른 과장과 미신 역시 적지 않다. 이 책에서 살펴보는 데이터 과학의 오해와 진실 몇 가지만 적어보면 다음과 같다.

☞자동화된 데이터 과학 프로세스에 데이터를 맡기기만 하면 모든 문제에 답을 준다?
실제 데이터 과학은 각 단계마다 이를 감독할 노련한 데이터 과학자가 필요하다. 인간이 문제를 규정하고, 필요한 데이터를 설계 및 준비하고, 어떤 알고리즘이 가장 적합한지 결정하고, 분석 결과를 비판적으로 해석하고, 이를 바탕으로 실행 계획을 세우지 않으면 데이터 과학 프로젝트는 실패할 수밖에 없다.
☞데이터 과학에 편향(bias)이 있어서는 안 된다?
어떤 데이터 세트를 선택하는지가 그 이후의 분석에 가져오는 편향을 표본 편향이라고 한다. 표본 편향은 데이터 과학자가 피해야 하는 편향이다. 데이터 세트가 대상 집단을 잘 대표하지 못한다면 알고리즘이 만들어내는 모델이 정확할 리 없기 때문이다. 한편 학습 편향이라는 것도 있는데, 기계학습의 여러 분석 알고리즘이 저마다 가지고 있는, '대상을 일반화하는 독특한 방식이나 한계'를 뜻한다. 예를 들어 선형회귀 알고리즘은 데이터를 선형으로 일반화, 추상화하기 때문에 비선형 관계로 나타내는 것이 더 적절하다 해도 그런 가능성을 무시한다. 다시 말하면 편향 없이는 학습도 일어날 수 없으며 모든 상황에 다 맞는 최고의 알고리즘 따위는 없다는 뜻이다. 중요한 것은 어떤 알고리즘을 쓰는 것이 좋을지에 대한 인간의 판단이다.
☞모든 데이터 과학 프로젝트는 빅데이터가 필요하며 딥러닝 기술을 써야만 한다?
많은 데이터보다는 맞는, 적합한 데이터를 갖고 있는 게 더 중요하다. 데이터 과학 프로젝트는 구글, 바이두, 마이크로소프트 같은 회사에 비해 훨씬 작은 데이터와 컴퓨터 연산력을 가지고 있는 조직에서도 자주 이뤄진다. 꼭 테라바이트 단위의 데이터를 다룰 수 있는 조직만 데이터 과학을 하는 것은 아니다.
☞데이터 과학은 숫자에 바탕을 두고 있기 때문에 인간의 편견이 결정에 영향을 미치지 않으니 객관적이다?
데이터 과학 알고리즘은 객관적이기보다는 무도덕적이다. 데이터 과학은 데이터에서 패턴을 추출하는데, 만약 데이터가 편견에서 비롯된 관계를 담고 있으면 알고리즘이 내놓는 결과 역시 편견을 담고 있다. 예를 들어 언제 어디서 범죄가 발생할 것인지를 예측하기 위해 고안된 예방 치안(Predictive Policing)은 편견과 차별을 강화할 위험이 있다.

일상과 업무에 깊숙이 관여하고 있는 데이터 과학
데이터 범람의 시대에 중심을 잡기 위한 핵심 지식

이 책의 목적은 데이터 과학에서 핵심적인 요소들의 기초를 깊이 들여다봄으로써 독자가 원칙에 기초하여 데이터 과학을 이해하도록 하는 데 있다. 각 장에서 다루는 내용을 살펴보면 다음과 같다.

1장 <데이터 과학은 무엇인가?>에서는 데이터 과학이 현장에서 어떻게 쓰이는지 소개하고, 데이터 과학의 발전과 진화에 관한 간략한 역사를 살펴본다. 더불어 데이터 과학에 대한 그릇된 믿음을 밝히고 그 정체를 파헤쳐본다. 저자들에 따르면, 지금처럼 데이터 과학을 잘못하기 쉬운 때도 없다.
2장 <데이터와 데이터 세트란 무엇인가?>은 데이터, 데이터 세트, 데이터베이스 등 데이터 과학에서 근본적인 개념들을 소개한다. 또 비즈니스에 대한 이해, 데이터에 대한 이해, 데이터 준비, 모델링, 검토, 적용 등 데이터 과학 프로젝트의 전형적인 단계를 설명한다. 보통 모델링 단계에 가장 많은 시간이 소요될 것 같지만 실제로는 전체 프로젝트에 투여되는 시간의 약 80퍼센트가 데이터 준비에 들어간다.
3장 <데이터 과학 생태계>는 빅데이터가 불러온 과제들, 여러 출처로부터 온 데이터를 어떻게 통합하는지 등에 초점을 맞춘다. 전형적인 데이터 과학의 기반 구조에 대한 설명으로 시작해, 큰 데이터 세트를 데이터 구조 사이에 옮기는 과제를 해결하기 위해 주목받는 솔루션들을 제시한다.
4장 <기계학습 101>에서는 기계학습의 영역들을 소개하고 가장 널리 쓰이는 신경망, 딥러닝, 의사결정 나무 모델 등의 기계학습 알고리즘과 모델들을 설명한다. 기계학습은 큰 데이터 세트에서 모델을 생성하는 여러 알고리즘을 제공하지만 이런 모델이 유용한지에 대한 판단은 데이터 과학자의 전문 지식에 달려 있다.
5장 <표준적인 데이터 과학 업무>는 사업 중 발생하는 여러 기본적인 문제들과 기계학습으로 이를 어떻게 해결하는지에 대한 설명을 통해 기계학습의 전문 분야와 실제 세계 문제들의 연결에 초점을 맞춘다. 대부분의 데이터 과학 프로젝트는 군집화, 이상 탐지, 연관 규칙 마이닝, 예측, 네 부류 중 하나에 속한다.
6장 <프라이버시와 윤리>에서는 데이터 과학이 윤리에 미치는 영향, 데이터 규제의 최근 동향, 개인의 프라이버시를 보호하는 새로운 기술적 접근법 등을 살펴본다. 여러 분야의 다양한 맥락에서 개인에 대한 데이터를 수집하고 사용하는 것에 대해 어떻게 접근하는 것이 합리적일까? 물론 정답은 없다.
마지막 7장 <미래 동향과 성공의 원칙>에서는 가까운 미래에 데이터 과학이 상당한 영향을 몰고 올 개인화된 의료와 스마트 도시 두 영역을 알아보고, 데이터 과학 프로젝트가 성공하는 데 결정적 역할을 하는 중요한 원칙 몇 가지를 제시한다.

<옮긴이의 말> 중에서
이 책은 학문적 기초, 기술적 응용, 윤리 세 측면을 적절한 황금 비율로 다루고 있다는 점에서 다른 책들과 다르다. 디지털, 정보통신(IT)과 과학 분야 출입 기자로서의 경험 및 컴퓨터와 저널리즘 융합 학위 연수 등 지난 6년여 동안 데이터 과학 분야의 여러 책을 보아왔는데 이런 책들은 대개 세 부류 가운데 하나로 나눌 수 있는 것 같다. 첫째, 컴퓨터 기술 활용에 대한 실용서적이다. 데이터 분석과 관련 프로그래밍 등에 대한 기술적인 내용을 주로 다루는 책이다. 둘째, 빅데이터 시대를 소개하는 경영 및 자기계발 분야 서적이다. 주로 상업적 기획에 초점을 맞추면서 이른바 ‘4차 산업혁명’을 어떻게 맞아야 하는지에 대한 내용을 다룬다. 셋째, 데이터와 디지털 문화의 위험을 다룬 책이다. 이런 기술이 사회와 인간에 미치는 영향을 검토한 비판서들이다. 이 책은 균형 감각을 갖추고 이런 세 분야를 모두 아우르고 있다.
무엇이든 새로운 것을 접할 때는 시작이 어렵다. 시작부터 너무 자세한 부분까지 깊숙이 들어가면 벗어나고 싶은 생각이 커지기 마련이다. 그렇다고 너무 얕으면 하나마나하다는 생각이 든다. 이 책은 깊이에서도 적절한 균형을 잡고 있다. 데이터 과학 전반에 대한 소개뿐 아니라 선형회귀나 신경망, 의사결정 나무 등 기계학습의 주요 알고리즘과 개념 등에 대해 설명하는 대목에선 수학적인 내용까지 다루고 있지만 고등학교 수학 과정을 공부한 사람이면 이해할 수 있을 정도로 적절한 선을 유지했다. 이런 학문적 개념까지 다루고 있기 때문에 단지 “기계학습이 이런 놀라운 일을 할 수 있다”나 “빅데이터 분석이 사회를 이렇게 바꾸고 있다” 정도만 다루는 책들과 분명한 차별점을 지닌다.

감사의 말
들어가는 말
1장 데이터 과학은 무엇인가?
2장 데이터와 데이터 세트란 무엇인가?
3장 데이터 과학 생태계
4장 기계학습 101
5장 표준적인 데이터 과학 업무
6장 프라이버시와 윤리
7장 미래 동향과 성공의 원칙
옮긴이의 말
용어설명
주
더 읽을거리
참고문헌
찾아보기

책 소개

시민 교양으로서의 데이터 과학 개론서. 빅데이터, 인공지능, 딥러닝, 기계학습 같은 데이터 과학의 개념과 기술들이 어느새 업무는 물론 정치와 개인의 일상에까지 깊이와 너비에서 전례 없는 영향을 미치고 있다. 아일랜드 더블린공과대학교에서 데이터 과학을 가르치는 존 켈러허와 브렌던 티어니가 함께 쓴 이 책은 비전문가를 위해 전문적인 주제의 핵심 지식을 원리에 기초해 설명하는 〈MIT Essential Knowledge〉 시리즈 중 한 권으로, ‘데이터 과학은 무엇이고, 왜 중요한가? 기계학습, 딥러닝, 신경망은 무엇이고, 서로 어떤 관계인가? 데이터 과학자는 실제로 어떤 일을 하는가? 데이터 과학은 어떤 단계로, 어떻게 작동하는가? 데이터 과학 프로젝트가 성공하기 위한 원칙은? 데이터 과학의 발달에 따른 윤리적 문제는 무엇인가? 데이터 과학이 펼쳐보일 미래는 어떤 모습인가?’ 등 빅데이터 시대에 중심을 잡기 위한 중요한 질문들에 답한다. 두 저자가 굳건한 이론적 토대를 깔고 데이터 과학을 소개하고 있어, 장밋빛 미래에 대한 환상을 심어주거나 데이터 관련 기술이 인간과 사회를 어떻게 바꾸고 있는지 정도만 소개하는 책들과는 분명한 차별점이 있다. 데이터 과학을 처음 접하는 독자라면 이 책을 통해 핵심 개념부터 활용법과 성공 원칙, 윤리적 문제까지 데이터 과학 전반에 대한 기초 지식을 습득할 수 있을 것이고, 어느 정도 지식이 있는 독자도 대충 넘어갔던 부분을 보다 깊이 이해하고 데이터 과학 생태계 전반을 꿸 수 있을 것이다.

저자 및 역자 소개

더블린공과대학교 컴퓨터과학부 교수이자 부속기관인 정보통신 및 엔터테인먼트 연구소 소장. 인공지능, 기계학습 분야에서 세계적으로 인정받는 전문가다. 더블린시립대학교, 유럽미디어연구소, 독일인공지능연구센터 등 여러 대학과 연구소에서 일했다. 지은 책으로 《딥러닝》《데이터 예측을 위한 머신 러닝》(공저)이 있다.