도서 소개
데이터 과학자는 우리가 매일 생성하는 엄청난 양의 데이터를 통해 세상을 이해하고, 문제를 해결하는 직업이다. 숫자와 코드의 세계 속에서 숨겨진 패턴을 찾고, 그 의미를 해석하고, 발견한 문제의 해답을 찾는 사람들이다. 그런데 데이터 속에서 문제를 발견하고, 해결한다는 건 뭔지, 엄청난 양의 데이터에서 중요한 것을 찾아내는 방법이 뭔지 모르겠다고? 그렇다면 이 책을 펼쳐보자. 현직 데이터 과학자가 여러분에게 친절하고 자세히 알려준다.
출판사 리뷰
데이터 과학자의 일은 창의적 사고와 끝없는 호기심이 필요한 예술과도 같아요. 나날이 발전하는 컴퓨팅 기술을 익히고. 새로운 기술로 인공지능을 학습시키고 사용할 수 있는 역량을 갖추기 위해 끊임없이 공부해야 하는 직업이죠. 그래서 어쩌면 가장 미래와 가까운 직업일 수 있어요. 미래를 예측하고 준비하는 일에 도전하고 싶은 어린이에게 이 직업을 추천합니다.
데이터 과학이 발전하는데 중요한 역할을 한 기술은 무엇인가요?여러 가지가 있지만, 특히 몇 가지 핵심적인 것들을 들 수 있어요. 첫 번째는 분산 컴퓨팅 시스템이에요. 대량의 데이터를 처리하기 위해선 고성능의 컴퓨팅 파워가 필요하고, 이를 위해 분산 컴퓨팅 시스템이 중요해요. Apache Hadoop이나 Spark 같은 플랫폼이 이에 해당하죠. 두 번째는 데이터 저장 및 관리 기술이에요. 대용량 데이터를 효율적으로 저장하고 빠르게 접근하기 위해 고안된 NoSQL 데이터베이스, 클라우드 스토리징 솔루션 등이 여기에 속해요. 세 번째는 머신러닝과 데이터 마이닝 기술이에요. 이 기술들은 대량의 데이터에서 패턴을 찾아내고 예측모델을 구축하는 데 필수적이죠. 특히 최근의 AI 발전은 이 분야에 큰 영향을 미쳤어요. 마지막으로 데이터 시각화 도구도 중요해요. 복잡한 데이터를 이해하고 해석하는 것은 매우 어려워요. 이를 위해 개발된 고급 시각화 도구들이 데이터 과학자들에게 매우 유용하게 사용되고 있죠. 이러한 기술들이 결합되어 데이터 과학은 통계, 컴퓨터 과학, 정보 기술의 경계를 넘어서 통합된 학문으로 발전하게 되었습니다.
데이터에서 문제를 해결하는 방법을 찾아요데이터를 들여다보면 ‘누가, 언제, 어디서, 무엇을, 어떻게 했나’를 알 수 있어요. 그런데 한가지, ‘왜 이렇게 했을까’라는 이유는 빠져있죠. 이유는 사용자들만 알고 있는 거지만 기업에게는 그 이유가 중요해요. 온라인 마켓에서 사용자들이 물건을 고르고 결제를 하는 단계에서 포기하는 일이 많이 벌어졌다면 ‘왜 그랬을까’를 생각해야 문제를 해결할 수 있는 거죠. 또 어떤 거래는 얼핏 문제가 없어 보이는데 보통의 거래와는 다른 점이 발견되면 왜 이런 일이 생겼는지 원인을 찾아야 해결할 수 있어요. 누구도 말해주지 않고 기록하지 않은 이런 ‘이유와 원인’을 데이터 안에서 찾아 문제를 해결하는 사람들이 바로 데이터 과학자예요.
컴퓨팅 사고력을 이해하면 좋겠어요요즘엔 프로그래밍 언어를 몰라도 자연어로 코딩을 할 수 있기 때문에 프로그래밍을 배우지 않아도 된다고 생각할 수도 있을 거예요. 그래도 저는 프로그래밍을 배우는 게 좋다고 생각해요. 이걸 배우면 컴퓨팅 사고력, 즉 컴퓨터가 어떻게 사고하고 어떻게 정보를 처리하는지 이해할 수 있거든요. 프로그래밍 언어를 배우는 목적이 바로 컴퓨팅 사고력을 이해하는 것이어야 해요. 코딩을 배우면서 영어 단어 외듯이 프로그래밍 언어를 외우는 게 아니라 컴퓨터가 어떻게 작동하는지 그 원리를 깨우치자는 거예요.
경진대회를 적극 활용해요머신러닝도 좀 알고 코딩도 할 줄 안다면 경진대회에 나가보는 게 좋겠어요. 캐글Kaggle이라는 플랫폼이 있어요. 2010년 설립된 예측모델 및 분석 대회 플랫폼으로 머신러닝 및 데이터 사이언스 커뮤니티죠. 캐글에 각종 기업이나 단체들이 상금을 걸고 데이터와 해결과제를 등록하면 데이터 과학자들이 과제를 해결하기 위해 경쟁해요. 경쟁에 참여하는 사람들은 데이터 과학자도 있지만 중고등학생들과 대학생들도 많이 참여해요. 누가 되었든 나만의 알고리즘을 만들어서 문제를 풀기만 하면 되거든요. 평가도 단순해요. 제출한 결과를 기업에서 실제로 사용해 보고 점수를 매겨서 판단하죠. 참가자의 전공이나 경력 같은 것은 의미가 없어요. 경진대회에 참여해 보는 경험이 좋은 건 상을 떠나서 머신러닝을 학습하는 기회가 되기 때문이에요.
데이터 과학과 관련한 다양한 직업이 등장할 거예요최근에는 데이터 과학 분야가 더욱 세분화, 전문화되면서 새로운 직종들이 등장하고 있어요. 데이터 제품 소유자, MLOps 전문가, LLM 엔지니어 등인데요. ‘데이터 제품 소유자(Data Product Owner)'는 데이터 기반 제품이나 서비스의 전략과 비전을 설정하고 이끄는 역할을 해요. 이들은 데이터 분석 결과를 비즈니스 전략에 통합하여 제품 개발을 주도하죠. 'MLOps' 전문가는 머신러닝 모델의 개발, 배포 및 운영을 담당하며, 이 모델이 실제 환경에서 효과적으로 작동하도록 관리해요. MLOps는 DevOps의 원칙을 머신러닝과 결합한 것으로, 머신러닝 시스템의 지속적인 통합, 배포 및 모니터링을 중점적으로 다루죠. 그리고 'LLM 엔지니어(Large Language Model Engineer)'는 대규모 언어 모델을 개발하고 최적화하는 일을 하며, 자연어 처리와 관련된 다양한 애플리케이션을 구현하는 일을 해요. 이러한 역할은 인공지능과 언어 기술의 발전에 따라 점차 중요해지고 있어요.
- 『데이터 과학자는 어때?』 본문 중에서
작가 소개
지은이 : 김태헌
외국계 IT 기업, 국내 금융사 AI 연구소, 외국계 소비재 기업 등에서 다양한 AI 프로젝트 경험을 쌓고 현재는 이커머스 기업 핀테크 조직에서 시니어 데이터 과학자이자 머신러닝 알고리즘 엔지니어로 일하고 있습니다. 베이징 대학 졸업 후 캘리포니아 대학교 샌디에이고(UCSD)에서 국제경제 석사 학위를 받았습니다. 저서로는 《AI 소사이어티》(미래의 창, 2022)와 《퀀트 전략을 위한 인공지능 트레이딩》(한빛미디어, 2020)이 있으며, 역서로는 《단단한 머신러닝》, 《데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집》(제이펍, 2020) 등이 있습니다.
목차
1. 데이터 과학자 김태헌의 프러포즈
2. 데이터 과학이란
데이터 과학은 무엇인가요?
데이터 과학은 어떻게 탄생하게 되었나요?
데이터 과학이 발전하는데 중요한 역할을 한 기술은 무엇인가요?
데이터 과학을 활용하는 산업 분야는 어디인가요?
데이터 과학 분야에는 또 어떤 직종이 있나요?
3. 데이터 과학자의 세계
데이터에서 문제를 해결하는 방법을 찾아요
데이터 과학자의 중심 업무는 분석과 모델링이에요
일하는 분야에 대한 기초적인 지식이 필요해요
4. 데이터 과학자가 되려면
컴퓨팅 사고력을 이해하면 좋겠어요
호기심이 많고 배우는 것을 좋아해야 해요
여러 분야의 사람들과 소통할 수 있어야 해요
영어를 잘하면 좋아요
경진대회를 적극 활용해요
전공자도 비전공자도 할 수 있는 일이에요
데이터 과학자가 되는 경로는 여러 가지예요
5. 데이터 과학자의 매력
늘 새롭게 발전하는 일을 하는 매력
사람들에게 영향력을 미치는 문제를 해결하는 성취감
6. 데이터 과학자의 마음가짐
데이터를 근거로 생각하는 습관이 있어요
평생 공부하겠다는 결심이 필요해요
어차피 배워야 한다면 제대로 배워보자는 마음이에요
워케이션으로 일과 삶의 균형을 맞춰요
7. 데이터 과학자의 미래
데이터 과학자의 수요는 많아요
데이터 과학과 관련한 다양한 직업이 등장할 거예요
AI와 데이터 과학자는 상호 보완하며 발전할 거예요
일과 삶이 조화로운 직업이 될 거라 생각해요
8. 데이터 과학자 김태헌을 소개합니다
숫자 기록을 좋아했던 어린시절
대학원에서 처음 프로그래밍을 접했어요
일의 시작은 데이터 분석이었어요
한국에서 데이터 과학자로 자리매김했어요
늘 도전하면서 새로운 분야에서 경험을 쌓고 싶어요
9. 10문 10답
데이터 과학자와 AI 전문가는 어떻게 다른가요?
대규모 언어 모델이라는 도구를 어떻게 사용하면 좋을까요?
행동 데이터는 무엇인가요?
추천 시스템은 무엇이고 어디에 사용되나요?
연봉은 어느 정도인가요?
근무 시간과 형태는 어떤가요?
데이터 과학자는 언제까지 일할 수 있는 직업일까요?
일상에서 데이터 과학은 어떻게 쓰이고 있나요?
데이터의 증가에 따라 발생하는 문제도 있을까요?
미래에는 또 어떤 AI가 나올까요?
10. 나도 데이터 과학자