본문 바로가기
문과생애긔개발자_공부/수업정리

3월 24일 수업정리 (혼자 공부하는 머신러닝 04-2~05-1)

by animeel 2022. 3. 24.

확률적 경사하강법(손실함수가 최소가 되는 값을 찾는 것, 최저값 찾기)의 특징

1. 온라인 학습모델

2. 샘플 한개로 학습

3. 에포크(반복의 큰 단위) N번 반복 

4. 손실함수 (중요!!) 미분

5. 학습률(경사)

6. SGDClassifier hyperparameter

max_iter (최대 에포크의 크기)

tol ( 

verbose (

 

미분했을때 결과가 0이 나오는 값이 최저값

 

복원추출 <--> 비복원추출

 

로지스틱 함수(시그모이드 함수) 이진분류시 사용 - 양성일 확률, 음성일 확률

소프트맥스 - 각 확률 

 

손실함수

분류: 로지스틱 손실함수

        positive = -log(P) 

        negative = -log(1-P)

P는 Prob 예측확률

회귀: MSE, RMSE, MAE

 

MSE: mean squared error

 

convergence 수렴

divergence 발산

 

Decision Tree의 특징

1. root node, branch node, leaf node

2. Gini impurity index vs entropy

3. 각 노드에서는 중요한 feature를 선택해서 조건을 적용

4. scaling과 같은 유형의 전처리 안해도 됨 (이상치, 누락값에 영향을 안받음)

 

 

지니불순도

정보이득(information gain) : 부모와 자식간의 불순도 차이

 

가지치기 (bruning)

기준되는 feature가 바뀌면 색이 바뀌기도 함

순도가 비슷하면 다른 색이 나오기도 함

순도가 더 높아지면 진한색, 낮아지면 옅은 색이 나옴

 

분류

KNeighborsClassifier

LogisticRegression

DecisionTree

RandomForest                                  

              ↓fit()          ↓score                  최종모형을 선택하기 위한 데이터셋

          train 80% (validation포함)       test 20%

hyperparameter조정

 

더 많은 데이터를 훈련 데이터로 사용하기 위해 교차검증을 사용함(훈련양이 작아지는 문제점 보완)