Confusion Matrix와 ROC Curve를 공부하여 나름대로 정리합니다. Confusion Matrix는 누가 이름을 지었는지 몰라도... 완벽한 네이밍이다. 볼때마다 내 머리속을 혼동시킨다.. 오늘 이해하고 넘어가보려 한다. Confusion Matrix는 실제(Y) , 예측 (Y^)을 가지고 Matrix를 만든다. 즉, 총 4가지 경우의 수가 나온다. Y == Y^ == T : Y 와 Y^ 이 같으면서, 예측값이 T일때 Y == Y^ == F : Y 와 Y^ 이 같으면서, 예측값이 F일때 Y != (Y^ == T) : Y 와 Y^ 이 다르면서, 예측값이 T일때 Y != (Y^ == F) : Y 와 Y^ 이 다르면서, 예측값이 F일때 즉, TP , FN, FP, TN 이런 결과가 나오게 되는데..
이상치 탐지 Task를 참여하면.. 한번쯤 들어보는 알고리즘인 iForest... Forest계열은 언제나 옳다는 마음가짐으로 이상치 탐지 테스크를 할때마다 사용하고 한다. ( 할때마다 성능은 그닥...?) 그래서, 이번 기회에 iForest를 정리하고 확장된 개념인 Extended iForest 또한 정리하고자 한다. iForest는 ExtraTree기반을 사용하기 때문에 혹시 ExtraTree에 대해 잘 알고있으면 훨씬 수월할 것이다. Decision Tree가 어떻게 작동하는지 정도는 알고 해당 글을 봐야 어느정도 이해가 될것이라 생각한다. ExtraTree는 해당 글을 참고하길 바란다. https://sims-solve.tistory.com/93 [ML] Extra Tree (Extremely R..
https://www.youtube.com/watch?v=VHky3d_qZ_E&t=212s [해당 영상으로 공부하였습니다.] XGBoost > GBM의 성능, 스케일, 속도를 최적화하기 위해서 극한으로 빠르게. > 단, 약간의 성능 저하가 발생할 수 있음.(근사기법때문에 ,approximation) 데이터를 더 많이 사용할 수 있고, 병렬처리 가능하기때문에 근사기법의 단점을 극복할 수 있다. XGBoost는 GBM이지만, 보다 빠르게 해를 찾아감, 스케일링?(무슨뜻?) 1. Split finding algorithm 기본 tree - best split를 찾기위해 모든 구역 전수조사 ( 항상 최적의 구간을 찾을 수 있음. Greedy) - 메모리에 데이터 자체가 다 들어가지 않을 정도로 많은 데이터라면 ..
해당 강의를 참고하여 공부하였습니다. https://www.youtube.com/watch?v=4C8SUZJPlMY 기존 GBM은 모든 feature, 모든 객체(row)에 대해 Scan을 진행하여 imformation gain을 측정해야 하기때문에, 시간적으로 오래 걸리며, sequential함. ( parallel 하지못함.) 위와같은 시간적 문제점을 해결하기 위해 XGBoost는 Bucket이라 부르는 단위로 쪼갠 후 Bucket안에 있는 데이터의 information gain을 측정하여 최적의 split을 approximate하는 방식을 사용하여 parallel할 수 있도록 만듬. > 모든 data instance을 스캔하는 것을 완하시켜 속도를 빠르게 함. Bucket = HistoGram-ba..
이전 포스팅에서는 마할라노비스 거리가 무엇인지 알아보았다. 마할라노비스 거리를 모른다면 해당 링크를 참고하여 공부하고 오길 바란다. https://angeloyeo.github.io/2022/09/28/Mahalanobis_distance.html 마할라노비스 거리 - 공돌이의 수학정리노트 angeloyeo.github.io MCD모델에 들어가기 앞서, 기본적으로 몇가지 알고 넘어가야 할 것이 존재한다. 1) 공분산 2개의 확률변수의 상관'관계' 만을 나타내는 값 ( Positive- 양수, Negative- 음수, None- 0 인지 관계만 나타내줌. 강도 X) 관계만 알 수 있는 이유는... X와 Y 두 변수가 있을때, 어느 한쪽의 단위 (e.g.) 몸무게를 Kg 으로 표시하던 걸 g으로 표시하게 되..
머신러닝중에 이상치 탐지 머신러닝을 찾다보니 MCD( Minimum Covariance Determinent ) 모델을 알게되었다. MCD모델을 공부하여 정리하는 글을 작성해보고자 한다. MCD는 최소 공분산 행렬을 만드는 데이터셋을 구축하고, 해당 데이터 셋의 피쳐들을 고려하여 데이터셋을 정규화시켜 유클리드 거리를 구하게 된다. 즉, 피쳐간 관계(맥락)을 고려 + 유클리드 거리 = 마할노비스 거리 가 되는 것이다. 마할라노비스 거리를 기준으로 이상치라 판단하기 때문에 마할라노비스 거리에 대해 정리해보고자 한다. https://angeloyeo.github.io/2022/09/28/Mahalanobis_distance.html 마할라노비스 거리 - 공돌이의 수학정리노트 angeloyeo.github.io..
이번 포스팅에서는 GBM Regressor 안에 Decision Tree(DT)가 어떤 식으로 split하는지 알아보고자 한다. 이미 DT포스팅에서 어떻게 Split 하는지 포스팅을 했다. 그런데 왜 같은 내용을 또 하냐면... DT에서는 split 기준(criterion)공식을 squared_error로 사용한다. 하지만, GBM속 안 DT는 Friedman mse를 사용한다고 한다. 이 차이점 때문에 다시 한번 손으로 직접 구하는 포스팅을 하는 것이다. * 참고로, 기준(criteriion)의 의미는 IG(Information Gain)을 구할때 어떤 방식으로 구할지에 대한 기준이라 보면 된다. 혹시, 기존 DT에서 IG(Information Gain)을 구하는 방식을 모른다면, 한번쯤 보고 오는 것..
이번 포스팅은 GBM Regressor가 어떤 방식으로 동작하고, split 하는지 간단하게 손으로 구하는 포스팅이다. GBM의 기본적인 이론을 숙지한 후 보는 것을 추천드린다. https://sims-solve.tistory.com/96 [ML] GBM(Gradient Boosting Machine) - 정리 이번 포스팅에는 직접 GBM(Gradient Boosting Machine)을 살펴보려고 한다. boosting의 개념을 모른다면, 이전 글 ada boost를 보고 오길 바란다. boosting의 의미를 알아야 GBM을 알아가는데 직관적으로 와닿을 sims-solve.tistory.com 일단, GBM의 학습 과정을 간단하게 기술해 보았다. 밑 [그림 1]을 보고 천천히 이해해 보기 바란다. 딱..
- Total
- Today
- Yesterday
- 알고리즘
- c3k2
- 자바
- github
- V11
- java
- 이미지
- GNN
- 티스토리챌린지
- 어탠션
- 백준
- DeepLearning
- python
- 욜로
- Tree
- yolov11
- GIT
- 뜯어보기
- 오류
- CNN
- docker
- 오블완
- 딥러닝
- 디텍션
- YOLOv8
- 정리
- YOLO
- 도커
- 초보자
- 깃
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |