본문 바로가기
유용한 정보

Book reivew - 빅데이터 시대, 올바른 인사이트를 위한 통계 101 데이터 분석

by systrader79 2022. 12. 22.
728x90
반응형

 

 

빅데이터 시대, 올바른 인사이트를 위한 통계 101×데이터 분석 - YES24

제대로 다진 기초 통계, 내 데이터 분석의 탄탄한 주춧돌이 되다!왜 통계를 이해하고 나서 데이터를 다뤄야 하는가?데이터를 분석·해석하는 방법은 다양하지만, 공통적으로 통계의 사고방식에

www.yes24.com

제가 대학교 2학년 때까지 가장 싫어했던 과목이 통계학이었습니다. 교양 필수 과목이라 억지로 듣긴 했지만, 대체 이런 뜬 구름 잡는 것 같은 과목을 왜 배워야 하는지 도통 알 수 없던 시절이라 억지로 꾸역꾸역 공부했던 기억이 납니다.

 

통계학에 대한 저의 무관심은 대학원 시절까지 이어졌습니다. 논문에 넣기 위한 통계처리를 해야 하니 땜질식으로 분석에 필요한 통계 방법만 속성으로 찾아서 처리하고 이후에는 통계로부터 해방되었습니다.

 

그런데, 이후에 참 아이러니한 상황이 발생했습니다. 주식 투자에 입문하게 되고, 시스템 트레이딩과 퀀트를 연구하다보니, 통계를 도저히 공부하지 않을 수 밖에 없는 상황이 자연스럽게 찾아온 것이지요.

 

이전까지는 학점을 따기 위해 관심조차 없었던 억지로 공부하던  제가, 이제는 스스로 흥미와 호기심이 생겨서 시키지도 않은 공부를 저 혼자하게 되었습니다. 대학교 교재로 이용되는 통계학 책을 몇 권을 사보고, 수학적 베이스가 얕지만 개념을 쉽게 설명해 놓은 입문서도 찾아보고, R 같은 오픈 소스 통계 프로그래밍도 자연스럽게 접하게 되었습니다.

 

흥미와 관심이 생겨 스스로 찾아서 공부하다보니 통계에 대한 저의 생각은 180도 바뀌었습니다. 통계는 재미없고 고리타분한 학문이 아닌, 인생의 치트키라는 생각을 하게 되었습니다.

 

데이터와 통계로 세상을 바라보면, 보다 정확하고 일관된 판단을 할 수 있고, 남이 보지 못하는 것을 볼 수 있었습니다. 무엇보다도 통계를 공부하면서 느낀 가장 큰 장점은 일상 생활의 모든 정보를 통계적, 계량적, 퀀트적인 관점으로 바라보게 되었다는 것이었는데요, 이런 사고 방식은 퀀트 트레이딩에 있어 엄청나게 큰 도움을 주었습니다.

 

시중에 나온 통계학 책들은 크게 3 부류로 구분할 수 있습니다. 첫번째는, 엄정한 수식으로 가득찬 딱딱한 대학교재, 두번째는 순수한 일반인을 위한 교양서적, 세번째는, 통계학에 대한 깊이 있는 해석을 희생하지 않으면서도 일반 대중들에게 개념을 잘 이해시켜주는 서적입니다.

 

첫번째 부류의 책들은, 통계학을 전공하는 사람들에게는 도움이 되지만, 너무 수식에 치우쳐 있어 정작 통계 방법과 수치가 무엇을 의미하고 어떻게 해석해야 하는지에 대한 본질을 망각한다는 단점이 있습니다.

 

두번째 부류는 이해하기는 쉽지만, 너무 수박 겉핥기 식으로 구성되어 있어 정작 실제 연구나 통계 분석에 적용하기에는 너무나 미진하다는 단점이 있습니다.

 

세번째 부류의 책들이 사실 일반인들에게는 가장 이상적이지만, 문제는 이런 책들을 찾기가 정말 쉽지 않다는 것인데요, 기쁜 소식은 이에 해당하는 아주 훌륭한 책이 한 권 나왔다는 것입니다. 바로 지금 소개하는 '빅데이터 시대, 올바른 인사이트를 위한 통계 101 X 데이터 분석' 입니다.

 

이 책은 아베 마사토라는 일본 공학자가 쓴 책인데요, 아시는 분도 많겠지만, 일본에는 깊이 있는 전문 학술 서적을 초심자나 일반인도 아주 알기 쉬운 언어로 설명하는 책들이 상당히 많습니다. 제가 의대생 시절에도 골치아팠던 내과학을 이런 일본 번역서를 통해 공부하는 과정에서 큰 도움을 받았던 기억이 있는데요, 이 책 또한 정말 알기 쉽게 통계의 정수를 알려주는 훌륭한 책입니다.

 

일반인들이 통계 분석을 할 때 필수적으로 알아야 하는 핵심 개념인, 확률, 모집단, 표본 집단, 데이터 분포, 가설 검정, 추론 통계부터 시작해서, 추론 통계, 베이즈 통계, 최근 대중들에게까지 뜨거운 관심을 끌고 있는 머신 러닝까지 필수적인 통계의 전 영역을 상세히 다루고 있습니다.

 

이 책에서는 통계 분석 방법론과 통계 지표, 수치가 궁극적으로 무엇을 의미하고, 어떤 원리로 그렇게 설명되는지에 집중하여 개념을 아주 쉽게 자세하게 설명해주고 있는데 이것이 이 책의 가장 강력한 장점이라고 할 수 있습니다.

 

일반적인 교양 통계 서적은 너무 깊이가 없고 얕아서 건질게 없고, 전공 서적은 깊이가 있고 방대하긴한데, 뭔소린지 모르겠어서 갈피를 못잡고 있다면, 이 책이 정답입니다. 이 책을 통해 통계학의 기초적인 개념과 뼈대를 확실히 잡고, 세부적인 각론은 보다 전문적인 서적을 통해 공부한다면 누구나 일반인도 누구나 통계의 즐거움과 아름다움을 만끽할 수 있으리라 확신합니다.

 

통계를 어느 정도 잘 알고 활용하는 분들께도 정확한 개념을 정리하는 관점에서 꼭 추천드리고 싶은 책입니다.

목차

시작하며
1장 통계학이란?: 데이터 분석에서 통계학의 역할
1.1 데이터를 분석하다
데이터와 통계학
데이터 분석의 목적
1.2 통계학의 역할
통계학은 데이터 퍼짐 정도가 클수록 힘을 발휘한다
데이터 퍼짐이 작은 현상
1.3 통계학의 전체 모습
기술통계와 추론통계
다양한 분석 방법
2장 모집단과 표본: 데이터 분석 목적과 대상 설정
2.1 데이터 분석의 목적과 알고자 하는 대상
데이터 분석의 목적
알고자 하는 대상
2.2 모집단
모집단을 생각하다
모집단 크기
2.3 모집단의 성질을 알다
모집단의 성질
전수조사
표본조사
표본크기
3장 통계분석의 기초: 데이터 유형, 통계량, 확률
3.1 데이터 유형
모집단과 표본
변수
다양한 데이터 종류
3.2 데이터 분포
그림으로 데이터 분포 표현하기
히스토그램은 그림으로 나타낸 것일 뿐
3.3 통계량
데이터 특징 짓기
다양한 기술통계량
분산을 확인할 수 있는 상자 수염 그림
이상값
3.4 확률
확률을 배우기 전에
확률의 기본 사고방식
추론통계와 확률분포
확률변수가 2개일 때
3.5 이론적인 확률분포
확률분포와 파라미터
정규분포
표준화
다양한 확률분포
4장 추론통계~신뢰구간: 데이터로 모집단의 성질을 추정한다
4.1 추론통계를 배우기 전에
전수조사와 표본조사
데이터를 얻는다는 것
무작위추출
추론통계를 직감적으로 이해하기
4.2 표본오차와 신뢰구간
모집단과 데이터 사이의 오차 고려하기
표본오차
표본오차의 확률분포
신뢰구간이란
t분포와 95% 신뢰구간
신뢰구간과 가설검정
5장 가설검정: 가설검정과 p값
5.1 가설검정의 원리
또 하나의 추론통계 방법
통계학에서 가설이란
p값
가정검정 흐름 정리
5.2 가설검정 시행
가설검정의 구체적인 계산
기각역과 p값
신뢰구간과 가설검정의 관계
가설검정의 구체적인 예
5.3 가설검정 관련 그래프
오차 막대
“통계적으로 유의미”를 나타내는 표기
5.4 제1종 오류와 제2종 오류
진실과 판단의 4패턴
α와 β는 상충 관계
효과크기를 달리 했을 때의 α와 β
6장 다양한 가설검정: t검정부터 분산분석, 카이제곱검정까지
6.1 다양한 가설검정
가설검정 방법 구분해 사용하기
6.2 대푯값 비교
모수검정의 평균값 비교
비모수검정의 대표값 비교
분산분석 (3개 집단 이상의 평균값 비교)
다중비교 검정
6.3 비율 비교
범주형 데이터
이항검정
카이제곱검정: 적합도검정
카이제곱검정: 독립성검정
7장 상관과 회귀: 두 양적 변수의 관계를 분석하다
7.1 양적 변수 사이의 관계를 밝히다
2개의 양적 변수로 이루어진 데이터
산점도
상관
회귀
7.2 상관관계
피어슨 상관계수
비모수 상관계수
상관계수와 가설
비선형상관
7.3 선형회귀
회귀분석이란?
회귀계수
결정계수
오차의 등분산성과 정규성
설명변수와 반응변수
8장 통계 모형화: 선형회귀에서 일반화선형모형으로
8.1 선형회귀 원리의 확장
선형회귀는 다양한 해석 방법의 기초
다중회귀
편회귀계수
범주형 변수를 설명변수로
공분산분석
고차원 데이터 문제
다중공선성
8.2 회귀모형의 형태 바꾸기
상호작용
이원배치 분산분석
비선형회귀
8.3 일반화선형모형의 개념
선형회귀 원리 확장하기
가능도와 최대가능도 방법
로지스틱 회귀
푸아송 회귀
다양한 일반화선형모형
8.4 통계 모형의 평가와 비교
왈드 검정
가능도비 검정
AIC
BIC
그 밖의 정보기준
9장 가설검정의 주의점: 재현 가능성과 p-해킹
9.1 재현성
가설검정, 이해는 어렵지만 시행은 간단
재현성 위기
재현 불가능한 원인은?
과학 논문 게재 과정
9.2 가설검정의 문제점
가설검정 이해하기
p값 되돌아보기
피셔류 검정과 네이만피어슨류 검정
효과크기
베이즈 인수
논문이 옳지 않을 확률
좋은 가설 세우기
9.3 p해킹
p해킹(p-hacking)이란?
p해킹을 예방하기 위한 노력들
가설검정을 이해할 때 확인할 항목
10장 인과와 상관: 잘못된 해석을 방지하기 위한 사고방식
10.1 인과와 상관
인과관계 밝히기
인과관계와 상관관계
인과관계와 상관관계의 다양한 사례
10.2 무작위 통제 실험
인과관계를 밝히려면
무작위 통제 실험
10.3 통계적 인과 추론
인과효과를 추정하는 또 다른 방법
11장 베이즈 통계: 유연한 분석을 향해서
11.1 베이즈 통계의 사고방식
통계학의 2가지 흐름
베이즈 통계의 이미지
통계 모형
베이즈 통계의 사고방식
베이즈 통계의 이점
11.2 베이즈 통계 알고리즘
MCMC 방법
MCMC 방법의 예
11.3 베이즈 통계 사례
이표본 평균값 비교
푸아송 회귀의 예
계층적 베이지안 모형
12장 통계분석과 관련된 그 밖의 방법: 주성분분석부터 기계학습까지
12.1 주성분분석
변수의 차원
주성분분석
인자분석
12.2 기계학습 입문
기계학습이란?
통계학과 기계학습의 차이
12.3 비지도 학습
비지도 학습이란?
12.4 지도 학습
지도 학습이란?
예측 성능 측정 ①: 이진 클래스 분류
예측 성능 측정 ②: 회귀
13장 모형: 통계 모형·기계학습 모형·수리 모형
13.1 모형이란?
통계 모형·기계학습 모형·수리 모형
모형은 현상을 이해하는 도구
수리 모형이란?
13.2 수리 모형: 미분 방정식
미분 방정식과 차분 방정식
수리 모형 사례 ①: 수의 변화를 모형으로
수리 모형 사례 ②: 감염병 모형
복잡한 모형으로
13.3 수리 모형: 확률 모형
확률 모형
수리 모형의 역할
마치며
찾아보기

 

너무나도 중요한 소식 블로그 (클릭)
너무나도 중요한 소식 ebook (클릭)

 


1. 네이버 카페 '실전주식투자연구소' 로 오시면, 본 블로그의 모든 내용을 카테고리별로 정렬하여 순서대로 확인하실 수 있고, 다양한 실전 투자 정보도 얻을 수 있습니다~

 

2. 자타가 공인하는 주식 단기 시스템 트레이딩의 최고 전략가, '닥터 퀀트의 단기 트레이딩 강좌'가 뉴지스탁에서 진행중입니다. 닥터 퀀트의 강좌에서는 그동안 공개하지 않았던 무려 50개 이상의 실전 트레이딩 전략과 주기적인 업데이트 강의가 제공됩니다~

 

3. 'systrader79의 단기 시스템 트레이딩 강의' 와  '팩터 백과 사전 강의' 가 뉴지스탁에서 진행중입니다~   주식 단기 트레이딩과 자산 배분 전략에 관심이 있으신 분들의 많은 성원 부탁드립니다

4. 여러분의 인생이 걸린 너무나도 중요한 소식 ----> 여기를 클릭하세요!

 

 

 
728x90
반응형

댓글