출판사 리뷰
“걸작”
2024년 노벨 물리학상 수상자 제프리 힌턴 강력 추천
AI가 구현하는 놀라운 세상을 떠받치며 미래를 만들어갈 핵심 수학!
2024년 챗GPT의 마법 같은 등장은 빠르게 모두의 관심사를 장악했다. AI가 길을 찾아주고, 음악을 추천하고, 그림을 그려주고, 문서를 정리해주는 수준에서 도약하여 정보를 “스스로” 찾아서 알려주고 질문에 “생각해서” 대답하는 수준에 이른 것처럼 보였기 때문이다. 과연 AI는 진짜 생각하는 기계가 된 것인가? AI로 인해서 우리 사회는 어떻게 달라지고, 우리의 삶은 또한 어떻게 될 것인가에 대한 장밋빛 기대와 어두운 우려가 공존하고 있다. 과학저술가 아닐 아난타스와미의 이 책은 오늘날의 AI를 있게 한 알고리즘을 구성하는 핵심 수학을 상세하게 살펴봄으로써 기계 안에서 어떤 과정이 작동하고 있는지를 선명하게 제시한다. 이 책에서는 수십 년간 “기계 학습machine learning” 연구자들에게 활력과 흥분을 선사한 정교한 수학 원리와 알고리즘을 설명한다. 기계 학습이라는 방대한 분야에서 구사하는 알고리즘에는 비교적 간단한 수학이 쓰인다. 수백 년을 거슬러 올라가는 이 수학은 고등학교나 대학 저학년 때 배우는 것들로, 선형 대수, 미적분, 베이스의 정리, 가우스 분포(및 종형 곡선) 등이다. 이 책은 기계 학습 분야를 떠받치는 핵심적 수학 개념이라는 렌즈를 통해서, 로젠블랫의 퍼셉트론에서부터 현대의 심층 신경망(인공 신경세포라는 연산 단위의 정교한 연결망)에 이르는 여정을 들려준다. 1950년대의 비교적 단순한 개념을 이해하면서 수학과 친숙해진 뒤에는 조금씩 난도를 끌어올려 오늘날 기계 학습 시스템을 떠받치는 전문적인 수학 원리와 알고리즘을 살펴본다. 이 과정은 우리가 기계에 불어넣는 어마어마한 힘을 이해하는 데에 필요한 최소한의 이론적, 개념적 지식을 펼쳐 보인다. 학습하는 기계의 작동원리와 그 바탕을 파악할 수 있도록 돕는 이 책을 통해서 독자들은 비로소 AI의 정체를 이해하고 AI로 가득해질 미래를 자신 있게 맞이할 수 있을 것이다.
주요 내용 제1장에서는 1950년대 말엽 프랭크 로젠블랫이 개발한 퍼셉트론을 만난다. 현대 AI의 시작으로 일컬어지는 퍼셉트론은 데이터에 숨겨진 패턴을 유한한 시간 안에 반드시 찾아내는, 즉 데이터를 살펴보는 것만으로 패턴을 학습하는 최초의 쓸 만한 ‘뇌 기반’ 알고리즘이다. 퍼셉트론은 1943년에 철학자 성향의 40대 중반 신경과학자와 10대 영재가 발표한 논문에 그 뿌리를 두고 있다. 이 둘은 뇌가 연산 장치라면, 인간의 뇌 신경세포를 모방하여 단순한 계산 모형인 인공 신경세포를 만들 수 있을 것으로 생각하고 뉴로드(neurode. 신경세포neuron + 분기점node)라는 인공 세포를 구현했다. 심리학자였던 로젠블랫은 이를 바탕으로 세포가 직접 학습을 할 수 있는 퍼셉트론을 개발하여 발표했다. 퍼셉트론은 데이터 집합을 학습하여 선형적으로 분리할 수 있는 선형 분리 초평면을 반드시 찾아냈다. 이와 같은 퍼셉트론은 신경과학자들이 생각한 인간 신경세포의 작동방식을 모형화한 것이었기 때문에 신비로움을 풍겼으며, 언젠가 AI의 장밋빛 미래가 실현되리라는 기대감을 불러일으켰다. 예를 들면, 퍼셉트론은 특정 사람들의 키와 몸무게 데이터가 주어지면, 이를 학습해서 이 사람들을 비만과 비만이 아닌 사람으로 분리할 수 있는 기준을 반드시 찾아냈고, 새로운 사람의 키와 몸무게가 주어졌을 때 그가 비만인지 아닌지를 분류할 수 있었다.
제2장에서는 1865년 9월 아일랜드의 수학자 윌리엄 로언 해밀턴을 만나러 더블린의 로열 운하 다리로 떠난다. 그곳에서 기계 학습의 핵심이 된 한 스칼라scaler와 벡터vector라는 수학 개념을 만난다. 벡터를 이해하면 퍼셉트론의 학습 방식을 알 수 있다. 퍼셉트론은 데이터에서 가중치와 분리 초평면을 찾는데, 이는 벡터 개념을 이용하여 데이터 점과 초평면의 상대적 거리를 찾는 것과 관계가 있다. 제3장은 계곡의 바닥으로 내려가는 최단 거리를 찾는 과정을 살핀다. 즉 발생하는 오차를 최소화하는 방법을 찾아내는 과정을 따라간다. 1956년 다트머스 대학교에서 개최된 첫 AI 대회를 마치고 돌아온 버나드 위드로는 대학원생 호프와 함께 적응 필터의 잡음을 줄이는 방법을 고민하다가 최소 제곱 평균least mean squares, LMS 알고리즘, 즉 알고리즘이 함수의 최솟값에 다가가는 방법을 이용해서 어떻게 신경세포를 훈련할 수 있는지를 깨달았다. 오늘날 심층 신경망은 엄청난 수의 가중치를 사용하는데, 전부 경사 하강법을 훈련에 이용한다.
확률을 다루는 제4장에서는 “0.8의 확률로 1701년 태어났다”라고 전해지는 토머스 베이스를 만나 불확실한 상황에서 수학적으로 엄밀하게 결론을 도출하는 방법, 즉 베이스 정리를 살펴본다. 베이스 정리는 확률 통계라는 분야를 낳았으며, 250년 가까이 지난 지금 기계 학습의 어마어마한 원동력이 되고 있다.
제5장은 베이스 정리를 토대로 하는 최적 분류자 못지않은 효율을 발휘하는 최근린법nearest neighbor, NN 알고리즘을 배운다. 먼저 19세기 런던을 휩쓸었던 콜레라 발병 구역을 정리하여 전염병학에 엄청난 기여를 한 존 스노라는 의사를 통해서 강력한 기계 학습 알고리즘의 또다른 개념적 핵심을 알아본다. 존 스노는 콜레라가 발병한 지역과 사망자 수를 지도에 기록하여 그 상관관계를 파악함으로써 그 병의 원인이 마을의 한 “우물”에서 비롯되었음을 밝혔다. 이 문제를 더 일반적으로 표현하자면 가장 가까운 이웃을 찾는 일이라고 말할 수 있다. 이는 패턴 인식을 위한 극도로 중요한 알고리즘이 되었다. 패턴 인식은 기업들이 우리에게 책이나 시계나 영화를 권하고 싶을 때 쓰는 방법으로 우리를 (책이나 영화에 대한 취향에 따라) 고차원 공간의 벡터로 나타내고 우리의 가장 가까운 이웃을 찾아 그들이 무엇을 좋아하는지 파악한 다음, 그 책이나 영화를 우리에게 권하는 것이다.
제6장에서는 독일의 빼어난 수학자 다비트 힐베르트를 만나 행렬의 마법을 경험하게 된다. 또한 엄청난 수의 데이터를 다루는 주성분 분석이라는 간단하고 우아하고 탄탄한 방법, 다시 말해서 고차원 데이터를 훨씬 적은 축에 투영하여 데이터가 가장 많이 변이하는 차원을 찾는 법을 알아본다.
제7장에서는 데이터를 나누는 선형 경계, 즉 분리 초평면을 찾는 과정에서 더 나은 것을 얻는 방법을 찾은 연구자들을 만난다. 연구소 동료인 블라디미르 바프니크와 번하드 보저 그리고 그의 아내 이자벨 귀용은 “커널 수법kernel trick”을 이용해서 무한 차원 공간에서는 물론이고 최적의 분리 초평면을 찾는 알고리즘을 개발하여 현대 알고리즘 개발의 돌파구를 열었다. 프랭크 로젠블랫이 고안한 퍼셉트론 알고리즘은 분리 초평면을 찾을 수 있다. 그러나 분리 초평면이 무한히 존재하는데 그중 더 나은 것은 어떻게 찾을 것인가? 그것이 바로 이들이 적용하고자 한 커널 수법이다. 바프니크의 1964년 최적 한계 분류자와 커널 수법의 조합은 엄청난 위력을 발휘했다. 이제 넘보지 못할 데이터 집합은 하나도 없게 되었다.
제8장은 “홉필드 망”을 만들어 “신경망” 연구를 부활시킨, 물리학을 전공한 신경생물학자 존 홉필드의 이야기를 들을 차례이다. 그러기 전에 이 책은 먼저 물리학의 세계에 살짝 들어가서 자기 현상을 이해하고 자기 모멘트, 스핀spin이 무엇인지 소개한다. 이는 연상 기억과 대칭, 교란, 에너지 안정성 등의 개념으로 이어지며, 단층 신경망인 퍼셉트론의 한계를 뛰어넘을 다층 신경망을 학습하는 방법을 개발하기에 이른다.
제9장에서는 심층 학습, 그러니까 층이 세 개(입력층, 은닉층, 출력층) 이상인 심층 신경망에 대한 찬사와 비난을 동시에 받고 있는 조지 시벤코를 만난다. 그는 1989년 논문에서 은닉층이 하나뿐인 신경망에 충분히 많은 신경세포가 주어지면 어떤 함수든 어림할 수 있음을 밝혀냈는데, 이는 입력을 우리가 원하는 출력으로 전환할 수 있다는 뜻이다. 그러나 그의 논문이 은닉층 하나만 제시했다는 오해를 받기도 했다.
제10장은 심층 신경망의 훈련을 가능하게 해준 알고리즘인 “역전파backpropagation”를 다룬다. 심층 학습 혁명의 핵심 인물인 제프리 힌턴이 심리학자 데이비드 러멜하트, 전산학자 로널드 윌리엄스와 시작한 공동 연구를 살펴보고, 미분, 도함수, 연쇄 규칙의 잔잔한 강물에 발을 담근 후에는 신경망이 저지른 오류를 연쇄 규칙을 이용하여 역전파하는 방법을 살펴보며 역전파의 위력을 체감하게 할 것이다.
제11장은 기계에 시력을 부여하기 위한 여정을 따라간다. 고양이의 뇌에 전극을 심어 뇌의 활성도를 알아보는 실험을 거쳐 이미지 인식을 위한 합성곱 신경망을 도입한 얀 르ㅤㅋㅚㅇ에게 이르게 된다. 또한 그래픽 처리 장치(GPU)를 이용한 심층 신경망의 발전으로 이제는 이미지 인식이 컴퓨터 시각, 자연어 처리, 기계 번역, 의료 영상 분석, 금융 데이터 패턴 인식 등 다방면에서 널리 쓰이고 있다.
마지막 제12장 “미지의 땅”에서는 심층 신경망의 현재를 확인하고 앞으로의 과제와 신경망이 가져올 미래를 전망한다.
이 책은 AI가 내놓는 엄청난 결과물 이면에 있는 단순하지만 우아하고 강력한 수학 원리를 핵심 위주로 살펴본다. 독자들의 이해를 돕기 위해서 많은 그래프를 이용해서 수학 개념을 시각화하고, “수학적 코다”라는 절에서는 수학의 원리를 간결하게 정리하여 증명한다. 그래프와 수식의 바다에서 독자들은 AI를 움직이는 핵심적인 수학 개념과 원리를 파악함으로써 현재 엄청난 속도로 발전하고 있는 AI를 보다 선명하게 이해하게 될 것이다.