배우는 것/Maching Learning
1. 파이썬은 한 번에 하나의 명령어만 실행한다. 2. 중괄호 대신 들여쓰기를 사용해서 코드를 구조화한다. (공백문자가 의미를 가진다.) 들여쓰기는 4칸이 일반적이다. 콜론(:)은 코드 블록의 시작을 의미한다. for문에 대한 블럭 안에 if와 else가 동일한 들여쓰기에 쓰인 것을 볼 수 있다. for x in array: if x < pivot: less.apppend(x) else: greater.append(x) 3. 한 줄에 문장이 여러개일 경우 구분을 위해 세미콜론을 사용한다. 그러나 이 같은 형태는 지양하는 것이 좋다. a = 5; b = 200; c = 23 3. 한 줄에 문장이 여러개일 경우 구분을 위해 세미콜론을 사용한다. 그러나 이 같은 형태는 지양하는 것이 좋다. a = 5; b =..
1. Intro분류와 회귀분류는 두 개의 계층(클래스)으로만 분류하는 이진binary 분류와 셋 이상의 계층으로 분류하는 다중multiclass 분류로 구분된다. 회귀는 연속적인 숫자(부동소수점수 또는 실수)를 예측하는 것이다. 예측값은 범위 내의 어떤 숫자든 가능하다. 분류와 회귀는 예측값의 연속성 성질에 따라 구분할 수 있다. 전자는 비연속적인 반면, 후자는 연속적인 값을 가진다. 일반화, 과적합모델이 처음 보는 데이터를 정확하게 예측하면 일반화가 되었다고 말할 수 있다. 훈련 데이터로 만든 모델이 시험 데이터의 레이블을 정확하게 예측하면, 모델이 일반화됐다고 말할 수 있는 것이다. 하지만 모델의 복잡도가 높아질수록 그 모델은 훈련 세트에 최적화된 모델이 되어버려 과적합을 야기할 수 있다. 2. 과적..
1. Iris dataset 불러오기¶ In [12]: #붓꽃iris 데이터세트 불러오기. scikit-learn의 dataset모듈에 포함되어 있다. from sklearn.datasets import load_iris iris_dataset = load_iris() #load_iris가 반환하는 iris객체는 파이썬의 딕셔너리와 유사하다. Bunch 클래스 객체로, 키와 값으로 구성되어 있다. In [13]: print("iris_dataset의 키: \n{}".format(iris_dataset.keys())) #\n은 줄바꿈 역할을 한다. iris_dataset의 키: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_..
데이터세트 안에서 정보를 잘 전달하는 속성(:기준이 되어 데이터를 분류했을 때 부분집합의 타겟값이 동일한 비율이 높아짐)은 데이터세트 안에서 하나만 있는 것이 아니다. 여러 개의 속성을 기준으로 분류한다고 할 때, 어떤 순서로 해야할까? 이를 위해 알아야 하는 것이 다변량Multivariate 감독 세분화이다. 1. 분류 트리 분류 트리를 이용하면 데이터를 속성에 따라 세그먼트(알고자 하는 타겟변수의 값/계층)에 분류할 수 있다. 분류 트리에 입력된 데이터는 루트 노드(Root node, 시작점)에서부터 내부 노드Internal node 안에 설정된 속성에 따라 차례차례 분류되며, 최종적으로 단말 노드(Leaf node,타겟값)에 안착한다. 데이터의 속성에 의해 분류되므로 단말 노드를 제외한 노드를 결정..
1. 속성 찾아내기-데이터에서 속성을 안다는 것은? 감독 세분화를 할 때 우리는 데이터의 어떤 성질을 기준삼아 전체 데이터를 그룹화한다. 데이터의 어떤 성질, 즉 객체의 정보를 전달하는 변수를 속성Attribute라고 하는데, 속성은 객체에 대한 불확실성을 감소시키는 성질을 말한다. 감독 데이터 마이닝은 타겟값을 알아내고자 한다. 객체의 여러 특징 벡터(=속성) 중 타겟 변수가 정해지면, 그 변수를 알아내는 데 도움을 주는 또 다른 변수가 있을 것이다. 타겟 변수와 연관된 다른 변수가 있다는 것이다. 연관된 변수를 알게 되면 우리는 타겟값을 조사해볼 수 있다. 비즈니스 관점에서 생각해보자. 우리는 이번에 론칭한 상품A를 고객이 구매할지 여부를 알아야 한다. 그러나 우리가 알고자 하는 고객의 구매 여부는 ..
*초심자가 독학한 것을 기록한 것입니다. 오류가 있을 수 있습니다. 1. CRISP 데이터 마이닝 프로세스란? 데이터 마이닝을 위한 프로세스로는 CRISP가 있다. 문제의 구조를 파악해 일관성, 반복 가능성, 객관성을 유지할 수 있게 도와준다. (55) 반복되는 프로세스는 예외가 아니라 일반적인 과정이다. 맨 처음 해결하지 못했다고 해서 실패한 것이 아니다. 이 프로세스는 데이터를 탐구하는 성격이 지배적이다. 실패를 했더라도 이는 데이터를 더 잘 이해하게 되는 계기가 되며, 이후의 시도에는 더 많은 정보를 이용해서 연구를 수행할 수 있게 된다. 프로세스는 크게 비즈니스 이해-데이터이해-데이터 준비-모델링평가-배치 로 구성되어 있다. [1] 비즈니스 이해 사전에 명확히 정의된 데이터 마이닝 문제로 시작하는..