배우는 것/Maching Learning
*본 글은 '비즈니스를 위한 데이터 과학(포스터 프로보스트, 톰 포셋 지음, 한빛출판사)' 4장과 '파이썬 라이브러리를 활용한 머신러닝(안드레아스 뮐러, 세라 가이도 지음, 한빛출판사)' 2장을 참고하여 작성되었습니다. *필자가 배운 것을 조합해 작성한 것이므로 오류가 있을 수 있습니다. 1. 결정 트리 결정 트리는 연속된 질문(속성에 대한 질문)을 통해 객체들을 분할해간다. In [39]: import matplotlib.pyplot as plt import pandas as pd import numpy as np import mglearn import sklearn import graphviz mglearn.plots.plot_animal_tree() 1.1 결정 트리 만들기 결정 트리를 학습한다는 ..
*본 글은 '비즈니스를 위한 데이터 과학(포스터 프로보스트, 톰 포셋 지음, 한빛출판사)' 4장과 '파이썬 라이브러리를 활용한 머신러닝(안드레아스 뮐러, 세라 가이도 지음, 한빛출판사)' 2장을 참고하여 작성되었습니다. *필자가 배운 것을 조합해 작성한 것이므로 오류가 있을 수 있습니다. 1. 분류용 선형모델¶ 1.1 이진 분류 Binary Classification¶ $\hat{y} = w[0]x[0] + w[1]x[1] + w[2]x[2] +...+ w[p]x[p] + b$ 이진 분류의 예측을 위한 방정식은 선형 회귀와 비슷하다. 다른 점은 특성들의 가중치의 합을 그대로 사용하는 것이 아니라, 임계치 0과 비교해서 사용한다는 것이다. 예측한 값이 0보다 작으면 클래스를 -1이라고 예측, 0보다 크면 ..
* 본 글은 '파이썬 라이브러리를 활용한 머신러닝(안드레아스 뮐러, 세라 가이도 지음, 한빛미디어)'2장과 '비즈니스를 위한 데이터 과학(포스터 프로보스트, 톰 포셋 지음, 한빛미디어) 5장을 참고해 작성되었습니다. *내용에 오류가 있을 수 있습니다. 1. 선형 회귀 Intro ¶ 선형 회귀 모델에 대한 일반적인 예측 함수는 아래와 같다. $\hat{y} = w[0]x[0]+w[1]x[1]+...+w[p]x[p]+b$ $x[0], x[1], ... x[p]$는 각각의 데이터 포인트에 대한 특성 $w[0], w[1], ...w[p]$와 $b$는 모델이 학습할 파라미터 $\hat{y}$는 모델이 산출하는 예측값 직선의 방정식 개념에 대입해서 생각하면, $w[0], w[1], ...w[p]$는 각각의 특성($..
* 본 글은 (포스터 프로보스트, 톰 보셋 지음, 한빛미디어 출판) 5장을 참조해 작성했음을 밝힙니다. * 내용에 오류가 있을 수 있습니다. 1. 과적합화와 일반화 과한 융통성으로 인해 일반화되지 않고 조사한 데이터(훈련 데이터)에만 존재하는 특성을 '과적합화overfitting'이라고 한다. 일반화는 모델 제작에 사용되지 않은 데이터(시험 데이터, 실제 비즈니스에서 사용되는 고객 데이터 등)에도 모델을 적용할 수 있는 성질을 의미한다. 이는 모델이나 모델링 프로세스의 특성으로, 일반화되지 않았다는 것은 모델이 훈련 데이터에만 적합화 되어있음을 뜻한다. 모든 데이터세트는 모집잔의 유한 부분집합니다. 따라서 모델은 훈련 데이터의 모집단을 제대로 대표해야 한다. 그러나 과적합화는 학습하지 않은 데이터에 대한..
* 본 내용의 예제는 '파이썬 라이브러리를 활용한 머신러닝'(안드레아스 뮐러, 세라 가이도 지음, 한빛미디어 출판)2장 지도학습의 실습 내용을 참고하여 작성되었습니다. * 내용에 오류가 있을 수 있습니다. k-Nearest Algorithm 분류 실습¶ In [4]: import numpy as np import matplotlib.pyplot as plt import mglearn X, y = mglearn.datasets.make_forge() mglearn.discrete_scatter(X[:, 0], X[:, 1], y) #[:, 1] 은 [row_index, column_index]을 의미. #https://dojang.io/mod/page/view.php?id=2208의 내용을 참조하자. (리..
*본 글은 '파이썬 라이브러리를 활용한 데이터 분석(저자 웨스 멕키니, 한빛미디어)' 부록A를 참고해 작성되었음을 밝힙니다. 내용에 오류가 있을 수 있습니다. [목차]¶ 표준 파이썬 스칼라 자료형 int와 float자료형 문자열 자료 구조와 순차 자료형 튜플 리스트 사전 11. 표준 파이썬 스칼라 자료형_숫자형, 문자열 자료형 설명 None 파이썬의 널(null)값. Null 인스턴스만 유일하게 존재한다. str 문자열 자료형. 파이썬3에서는 유니코드 unicode 유니코드 문자열 자료형 float 배정밀도 부동소수점 실수. double형이 따로 존재하지 않는다 bool 불리언을 떠올리자. 참True과 거짓False int 부호가 있는 정수. 값의 범위는 플랫폼에 따라 다르다. long 무한 정밀도의 부..