빅데이터와 통계학

홈 > 부모님 > 부모님 > 소설,일반 > 대학교재

빅데이터와 통계학
제3판
탐진 | 부모님 | 2024.04.11

판매가
24,000원

S포인트
1,200P (5% 적립)

상세정보
18.8x25.7 | 0.800Kg | 320p

ISBN
9791193595091

배송비
2만원 이상 구매시 무료배송 (제주 5만원 이상) ?

배송비 안내

전집 구매시

주문하신 상품의 전집이 있는 경우 무료배송입니다.(전집 구매 또는 전집 + 단품 구매 시)

단품(단행본, DVD, 음반, 완구) 구매시

2만원 이상 구매시 무료배송이며, 2만원 미만일 경우 2,000원의 배송비가 부과됩니다.(제주도는 5만원이상 무료배송)

무료배송으로 표기된 상품

무료배송으로 표기된 상품일 경우 구매금액과 무관하게 무료 배송입니다.(도서, 산간지역 및 제주도는 제외)

출고일
1~2일 안에 출고됩니다. (영업일 기준) ?

출고일 안내

출고일 이란

출고일은 주문하신 상품이 밀크북 물류센터 또는 해당업체에서 포장을 완료하고 고객님의 배송지로 발송하는 날짜이며, 재고의 여유가 충분할 경우 단축될 수 있습니다.

당일 출고 기준

재고가 있는 상품에 한하여 평일 오후3시 이전에 결제를 완료하시면 당일에 출고됩니다.

재고 미보유 상품

영업일 기준 업체배송상품은 통상 2일, 당사 물류센터에서 발송되는 경우 통상 3일 이내 출고되며, 재고확보가 일찍되면 출고일자가 단축될 수 있습니다.

배송일시

택배사 영업일 기준으로 출고일로부터 1~2일 이내 받으실 수 있으며, 도서, 산간, 제주도의 경우 지역에 따라 좀 더 길어질 수 있습니다.

묶음 배송 상품(부피가 작은 단품류)의 출고일

상품페이지에 묶음배송으로 표기된 상품은 당사 물류센터에서 출고가 되며, 이 때 출고일이 가장 늦은 상품을 기준으로 함께 출고됩니다.

주문수량
- －
- ＋

★★★★★
0/5

리뷰 0개

리뷰쓰기

도서 소개
출판사 리뷰
작가 소개
목차
회원 리뷰

도서 소개

통계학을 활용하여 빅데이터를 분석하기 위해서는 자료를 우선 다양하게 분할하고, 분할된 자료를 통계적으로 분석하여 결과를 해석하여야 한다. 그리고 얻은 결과들 중에서 동일하게 해석할 수 있는 자료의 성격을 파악하여 유사한 특성을 가진 분할된 자료를 통합하면서 자료분석을 진행해 나가야 하는 점이 중요하다. 학부생들이 집에서 보유하고 있는 가장 일반적인 개인 컴퓨터 사용을 기반으로, 컴퓨터에 내장되어 있거나 따로 사용료를 지불하지 않아도 되는 마이크로 엑셀을 사용하여 분석을 진행할 수 있도록 집필한 교재다.

출판사 리뷰

컴퓨터사이언스 전공자들로부터 데이터베이스, 데이터웨어하우스, 데이터마이닝 등 현란한 용어가 계속 등장하고 꾸준히 진화하면서 발전하고 있다. 통계학도 컴퓨터사이언스와 동반적으로 발전하고 있는데 인공지능(AI), 사물인터넷(IoT) 등과 함께 특히, 요즘 커다란 이슈인 ‘빅데이터(Big Data)’의 등장으로 통계학은 비약적으로 발전하고 있음을 실감한다.

평생을 학교에서 강의와 연구만 해서 학교 밖의 사회 현실에 대하여 둔감하다고 할 수 있다. 그러나 대학교 1, 2학년의 학부생들이 전공을 선택할 때 통계학을 선호하는 현상이 증가하고, 통계학 학위를 가진 학부 졸업생들이 좋은 직장에 다니고 있으며, 통계학을 전공하려고 대학원 석사와 박사과정에 진학하는 대학원생들의 수가 증가하는 추세와 각 대학교에서 통계학 박사를 교수로 초빙하려는 모집 공고가 타 전공과 비교하면 비약적으로 많은 상황 등을 살펴보면, 요즘 통계학의 인기는 그 어떤 시기보다 좋다는 것을 절실하게 느낄 수 있다.

통계학과 학생으로 통계학을 전공하려고 하던 1970년도 후반에는 통계학의 미래는 밝다고 생각하고 언제인지는 모르지만 곧 전망이 밝은 미래가 도래할 것이라고 상상했다. 그 꿈은 컴퓨터의 발전으로 서서히 실현되더니, 인터넷의 개발로 인하여 밝은 미래에 도착하고 더욱 전진할 것 같다. 한마디로 표현하면 (과장되었다고 볼 수도 있지만), 통계학의 르네상스 시대가 시작하였다.라고 감히 얘기할 수 있다. 르네상스 시대이다가 아니라 르네상스 시대가 시작되었고 계속 발전하고 있는 상태라는 의미이다.

빅데이터에서 중요한 것은 데이터 관리와 분석이라고 할 수 있는데, 특히 통계학의 사용이 절대적으로 필요한 빅데이터 분석에 대하여 살펴보자. 빅데이터 분석을 하기 위해서는 용량이 큰 데이터를 처리할 수 있는 고가의 슈퍼 컴퓨터를 연상하기 쉽다. 슈퍼 컴퓨터에 대하여도 빅데이터 만큼이나 쉽게 정의하기 어려워 이에 대하여는 본서의 제1장에 서술하였지만, 중요한 점은 제1세대의 슈터 컴퓨터는 현재 여러분의 손에 있는 핸드폰의 기능보다도 떨어진다는 점이다. 아무튼 일반적인 슈퍼 컴퓨터를 사용하지 않고 여러분이 사용하고 있는 개인 컴퓨터를 사용하여도 용량이 큰 데이터를 분석해보면 상식적으로 알고 있는 지식과 일치하는 결과를 얻을 수 없는 경우가 많이 발생한다. 심지어 특정한 현상과 추세 등을 파악하기는 더욱 어렵다. 따라서 빅데이터 분석에서의 통계학의 역할은 더욱 중요하다.

통계학을 활용하여 빅데이터 분석하기 위해서는 대용량 자료를 한꺼번에 사용하는 것보다 빅데이터 자료를 우선 다양하게 분할하고, 분할된 자료를 통계적으로 분석하여 결과를 해석하여야 한다. 그리고 얻은 결과들 중에서 동일하게 해석할 수 있는 자료의 성격을 파악하여 유사한 특성을 가진 분할된 자료를 통합하면서 빅데이터 자료분석을 진행해 나가야 하는 점이 중요하다. 즉 대용량 자료인 빅데이터 자료를 다양하게 분할하여 분석하고 얻은 결과를 해석하여야 하고, 유사하게 해석할 수 있는 분할된 자료를 통합하면서 특성을 파악하는 과정을 반복하면 분석을 진행하여야 한다. 이런 과정 중에서 제일 중요한 것인 ‘통계자료분석’이라고 할 수 있다. 그러므로 빅데이터 분석의 핵심인 통계학의 중요성은 강조하고 다시 강조해도 지나치지 않다.

성균관대학교 학부대학에서 ‘통계적 사고’ 그리고 ‘생활 속의 통계’라는 과목으로 강좌가 오랫동안 유지되어 왔었다. 그러나 2020년도부터 두 과목을 폐지하고 새로운 시대에 맞춰 ‘빅데이터와 통계학’ 이란 하나의 강좌를 학부대학에서 새롭게 개설한다. 이 과목과 강의를 위해 본서를 집필하였다.

본서에서는 빅데이터 분석에 역점을 두지만, 빅데이터를 처리할 수 있는 고가의 슈퍼 컴퓨터를 사용하지 않는다. 오히려 학부생들이 집에서 보유하고 있는 가장 일반적인 개인 컴퓨터 사용을 기반으로 한다. 그리고 비싼 사용료를 지불해야 하는 통계소프트웨어를 사용하지 않고 가장 일반적인 개인 컴퓨터에 내장되어 있거나 따로 사용료를 지불하지 않아도 되는 마이크로 엑셀을 사용하면서 학습하는 것을 목표로 한다.

다시 이야기하면, 빅데이터 분석이라고 하면 빅데이터를 관리할 수 있는 슈퍼 컴퓨터 급의 컴퓨터를 가까이 사용할 수 있는 분(학생)이거나 빅데이터의 관리를 원활하게 취급할 줄 수 있는 높은 수준의 컴퓨터에 관한 지식이 필요로 하거나, 빅데이터를 분석하기 위한 고가의 통계 소프트웨어의 사용법을 매우 잘 아는 분(학생)이 아니라도, 누구나 갖고 있는 평범한 개인 컴퓨터를 사용하여 그 개인 컴퓨터에 내장된 소프트웨어를 사용하여 빅데이터를 통계 분석하는 방법을 쉽게 이해하고 숙지하고 배우기 위하여 교재를 개발한다.

통계자료분석에 대하여는 어떻게 분석하고 해석하느냐에 따라 결과가 다르므로 통계자료분석하는 정도와 정답은 없으나, ‘통계자료분석은 요리와 같다’라고 주장한다.

주어진 재료가 똑같다 하더라도 요리사가 누구며 요리 방법에 따라 음식의 맛은 천지 차이가 난다는 의미이다. 인스턴트 식품의 대명사인 라면, 그 중에서도 특정한 라면 하나를 예로 들어 설명한다. 누구나 쉽게 끓일 수 있는 라면도 누가 어떻게 하느냐에 따라 즉, 물과 불의 조절에 따라 맛의 혁혁한 차이를 누구나 느낄 수 있다. 심지어 같은 요리를 만들기 위하여 다양한 재료를 어떤 순서의 조합으로 어떻게 조리하느냐에 따라 음식 맛은 천지 차이가 난다는 것을 잘 알고 있을 것이다.

자료분석도 마찬가지이다. 어떤 특정한 가설을 검정하는 방법은 여러 종류가 있다. 예를 들어 ‘모평균이 0이다’라는 가설을 검정하는 방법으로 모수적 검정 방법도 여러 가지가 있으며 심지어 비모수적인 검정 방법도 여러 종류가 있다. 일반적으로 많이 사용하는 통계소프트웨어인 SAS, SPSS, R, Python 등의 출력 결과를 살펴보면 쉽게 이해할 수 있을 것이다. 그리고 이에 대응하는 검정 결과도 일치하지 않는다. 다섯 종류의 검정 결과가 제공된다고 가정하면서, 만약 세 종류는 귀무가설을 기각하는데 두 종류는 채택한다고 하면 여러분은 어떻게 결정할 것인가?

서점에서 쉽게 발견할 수 있는 교재 중에서 Excell, SAS, SPSS, R, Python 등의 통계소프트웨어를 이용한 통계자료분석에 관한 교재를 많이 발견할 수 있다. 대부분 저자의 전공이 통계학이 아닌 경영학, 행정학, 사회학 등인데 통계소프트웨어의 출력 결과에 대하여 분석하는 내용을 보면 ‘여러 방법 중에서 이것만을 보고 결정하면 됩니다’라고 서술하는 경우가 많다. 기가 막히는 서술인데 아마도 저자가 그것만을 알고 있기에 그렇게 서술한 것 같다. 그러면 비싼 돈을 사용료로 지급하면서 통계소프트웨어가 왜 복잡하고 이해하기 어렵게 온갖 종류의 검정 결과를 제공할까요?

여러 다양한 종류의 검정 결과가 제공되고, 그중에서 일부는 귀무가설을 기각하는데 다른 일부는 채택한다고 하는 경우를 가정하자. 이를 판단하기 위하여 다수결의 법칙을 따르면 절대로 안 된다. 각각의 검정 방법은 특징이 있어서 어떤 특정한 경우에는 이 방법이 효율적이며 다른 특정한 경우에는 비효율적이라는 알려져 있다.

따라서 방법들마다 장단점이 이미 연구되어 있다. 컴퓨터는 그것까지 파악할 수 없으니까 가능한 모든 정보를 사용자에게 제공하는 것이며, 사용자는 이론을 바탕으로 그중에서 가장 적절한 검정 방법을 택하여 사용하면서 판단하고 결정해야 한다.

일반적으로 유의수준을 5%를 사용하는데 p-값이 5%보다 작으면 귀무가설을 기각하고, p-값이 5%보다 크면 채택한다. 귀무가설을 기각하고 채택하는 기준으로 반드시 5%를 사용하여 p-값과 비교하여야만 하는가? 아니다. 귀무가설을 기각하고 채택하는 기준인 유의수준을 1%를 사용할 수 있으며 또는 10%를 사용할 수도 있다. 그러면 같은 결과도 해석이 달라지므로 분석 내용이 동일하지 않다.

요리의 맛을 요리사가 결정하듯이, 자료분석도 통계학자가 최종적으로 판단하고 결정한다. 따라서 정확한 통계학 이론과 지식을 바탕으로 자료를 다양한 분석 방법을 활용하여 분석해보는 풍부한 경험이 제일 중요하다. 결론적으로 통계자료분석을 잘하기 위해서는 수준 높은 통계학 이론과 지식을 바탕으로 다양한 자료분석 경험이 필요하다.

마지막으로 본서의 집필을 도와준 신혜수, 전해선, 홍성혁, 최소연 제자에게 고마움을 전하고, 탐진 출판사 최재범 사장님과 최효진 사장님께 감사드립니다.

2024. 2.
북악산 기슭 平散齋에서

작가 소개

지은이 : 홍종선
성균관대학교 통계학과를 졸업하고 미국 아이오와주립대학교(Iowa State University)에서 통계학 석사, 박사 학위 취득. 현재 성균관대학교 통계학과 교수이며 한국통계학회 이사다. 한국 데이터정보과학회 이사를 역임 중이며, 스포츠통계연구회 회장으로도 활동하고 있다. 그동안 30여 권의 저서를 집필했으며 100편 이상의 논문을 국내와 국제학회지에 게재한 바 있다.

Chapter 01 빅데이터를 지배하는 통계학
통계학자가 되려는 10가지 이유
1.1 빅데이터
1.2 빅데이터 통계분석
1.3 빅데이터를 지배하는 통계학
1.4 빅데이터를 분석하는 소프트웨어
참고문헌

Chapter 02 엑셀을 이용한 통계량 계산 및 그래프 작성
그리스 알파벳
2.1 데이터 세트 설정과 함수변환
2.2 외부 데이터 불러오기와 데이터 변형
(1) 텍스트 파일 불러오기
(2) 행/열 바꾸기
2.3 기술통계량 구하기
2.4 피벗 테이블 작성
2.5 분할표와 그래프 작성
(1) 히스토그램
(2) 파이차트
(3) 꺾은선 그래프
(4) 상자 수염 그림
2.6 자료다운방법
(1) 마이크로데이터 통합서비스
(2) 교통사고분석시스템
(3) 공공데이터포털
분석과제

Chapter 03 빅데이터 요약과 통계 분석: 분할표와 그래프 작성
3.1 타이태닉호 사망자 자료 분석
(1) 데이터 변환
(2) 피벗 테이블 만들기
(3) 피벗 테이블을 이용하여 히스토그램 작성
(4) 피벗 테이블을 이용하여 파이차트 작성
3.1 분석 과제
3.2 지하철 4호선 자료 분석
(1) 요일별 승차인원 자료 분석
(2) 요일별 승차인원 자료요약과 그림 작성
(3) 평일과 주말의 승차인원 자료 분석과 그림 작성
(4) 시간대별 승차인원 자료분석과 그림 작성
(5) 승하차 인원 상ㆍ하위 다섯 개 역 비교 분석
(5.1) 지하철 4호선의 각 역별 승하차 인원 합계 데이터 설정
(5.2) 지하철 4호선의 각 역별 승하차 인원 합계 데이터 분석
3.2 분석 과제
3.3 교통사고 자료 분석
(1) 요일별 교통사고건수 비교
(2) 시간대별 교통사고건수 비교
(3) 요일별 시간대별 사고건수대비 사망률 비교
(4) 가해운전자 차종별 시간대별 사고건수대비 사망률 비교
(5) 계절별 교통사고건수 및 사고건수대비 사망률 비교
(6) 시도별 교통사고건수 및 사망자수 비교
(6.1) 시도별 인구 10만 명당 교통사고건수 및 사망자 비교
(6.2) 시도별 자동차 1만 대당 교통사고건수 및 사망자 비교
3.3 분석 과제

Chapter 04 확률분포함수
4.1 이산형 확률분포
(1) 이항분포
(2) 포아송분포
4.2 연속형 확률분포
(1) 정규분포
(2) 지수분포
4.3 확률분포들간의 관계
(1) 이항분포와 포아송분포의 관계
(2) 이항분포의 정규 근사
분석 과제

Chapter 05 확률모의실험
5.1 난수 추출
(1) 균일분포
(2) 이항분포
(3) 정규분포
5.2 표본추출방법: 단순무작위추출법
5.3 대수의 법칙: 표본평균의 성질
5.4 중심 극한 정리: 표본평균의 분포
분석 과제

Chapter 06 빅데이터분석을 위한 통계방법1: 상관분석과 회귀분석
6.0 상관분석과 회귀분석 설명
(1) 상관분석
(2) 회귀분석
6.1 도시별 복지기능 특성자료
(1) 데이터 설명
(2) 변수간 상관분석을 통한 관계 파악
(3) 변수간 산점도를 통한 관계 파악
6.2 국내 상위기업 재무자료
(1) 데이터 설명
(2) 변수간 상관분석을 통한 관계 파악
(3) 변수간 산점도를 통한 관계 파악
6.3 도시별 사회경제적 현상
(1) 데이터 설명
(2) 변수간 상관분석을 통한 관계 파악
(3) 변수간 산점도를 통한 관계 파악
6.4 남자 국제 육상 기록
(1) 데이터 설명
(2) 변수간 상관분석을 통한 관계 파악
(3) 단거리 평균과 장거리 평균의 산점도를 통한 관계 파악
6.5 미국 50개 주의 폭행 체포와 살인 체포
(1) 데이터 설명
(2) 변수간 상관분석을 통한 관계 파악
(3) 변수간 산점도를 통한 관계 파악
6.1 분석 과제
6.2 분석 과제
6.3 분석 과제

Chapter 07 빅데이터분석을 위한 통계방법2: 인자분석, 주성분분석, 군집분석
7.0 주성분분석, 인자분석, 군집분석 설명
(1) 주성분분석
(2) 인자분석
(3) 군집분석
7.1 도시별 복지기능 특성자료
(1) 데이터 설명
(2) 변수간 상관분석을 통한 관계 파악
(3) 데이터 표준화와 상관분석
(4) 사회복지기능 평균과 문화시설의 산점도
7.2 국내 상위기업 재무자료
(1) 데이터 설명
(2) 그룹별 변수간 상관분석을 통한 관계 파악
(3) 전체 변수 간 상관분석을 통한 관계 파악
(4) 주식(Capital_stock) 변수와 재무 평균 변수의 산점도
7.3 도시별 사회경제적 현상
(1) 데이터 설명
(2) 변수간 상관분석을 통한 관계 파악
(3) 평균주택가격과 그 외 사회현상에 대한 산점도
7.4 미국 50개 주의 폭행 체포와 살인 체포
(1) 데이터 설명
(2) 변수간 상관분석을 통한 관계 파악
(3) 살인체포와 강간체포의 산점도
7.5 파산한 기업과 건실한 기업의 재무조사
(1) 데이터 설명
(2) 변수간 상관분석을 통한 관계 파악
(3) 기업 자산 평균과 유동자산/순매출에 대한 산점도
7.6 성적에 따른 대학원 입학여부
(1) 데이터 설명
(2) GPA와 GMAT에 대한 산점도
분석 과제

찾아보기