확률적 경사하강법(손실함수가 최소가 되는 값을 찾는 것, 최저값 찾기)의 특징
1. 온라인 학습모델
2. 샘플 한개로 학습
3. 에포크(반복의 큰 단위) N번 반복
4. 손실함수 (중요!!) 미분
5. 학습률(경사)
6. SGDClassifier hyperparameter
max_iter (최대 에포크의 크기)
tol (
verbose (
미분했을때 결과가 0이 나오는 값이 최저값
복원추출 <--> 비복원추출
로지스틱 함수(시그모이드 함수) 이진분류시 사용 - 양성일 확률, 음성일 확률
소프트맥스 - 각 확률
손실함수
분류: 로지스틱 손실함수
positive = -log(P)
negative = -log(1-P)
P는 Prob 예측확률
회귀: MSE, RMSE, MAE
MSE: mean squared error
convergence 수렴
divergence 발산
Decision Tree의 특징
1. root node, branch node, leaf node
2. Gini impurity index vs entropy
3. 각 노드에서는 중요한 feature를 선택해서 조건을 적용
4. scaling과 같은 유형의 전처리 안해도 됨 (이상치, 누락값에 영향을 안받음)
지니불순도
정보이득(information gain) : 부모와 자식간의 불순도 차이
가지치기 (bruning)
기준되는 feature가 바뀌면 색이 바뀌기도 함
순도가 비슷하면 다른 색이 나오기도 함
순도가 더 높아지면 진한색, 낮아지면 옅은 색이 나옴
분류
KNeighborsClassifier
LogisticRegression
DecisionTree
RandomForest
↓fit() ↓score 최종모형을 선택하기 위한 데이터셋
train 80% (validation포함) test 20%
hyperparameter조정
더 많은 데이터를 훈련 데이터로 사용하기 위해 교차검증을 사용함(훈련양이 작아지는 문제점 보완)
'문과생애긔개발자_공부 > 수업정리' 카테고리의 다른 글
3월 28일 수업정리 (혼자 공부하는 머신러닝06-1) (0) | 2022.03.28 |
---|---|
3월 25일 수업정리 (혼자 공부하는 머신러닝05-2~05-3) (2) | 2022.03.25 |
3월23일 수업정리(혼자 공부하는 머신러닝04-1) (0) | 2022.03.23 |
3월21일 수업정리(혼자 공부하는 머신러닝3-1) (0) | 2022.03.21 |
3월17일 수업정리(혼자 공부하는 머신러닝1-3) (4) | 2022.03.17 |