'머신러닝' 카테고리의 글 목록

Confusion Matrix와 ROC Curve를 공부하여 나름대로 정리합니다. Confusion Matrix는 누가 이름을 지었는지 몰라도... 완벽한 네이밍이다. 볼때마다 내 머리속을 혼동시킨다.. 오늘 이해하고 넘어가보려 한다. Confusion Matrix는 실제(Y) , 예측 (Y^)을 가지고 Matrix를 만든다. 즉, 총 4가지 경우의 수가 나온다. Y == Y^ == T : Y 와 Y^ 이 같으면서, 예측값이 T일때 Y == Y^ == F : Y 와 Y^ 이 같으면서, 예측값이 F일때 Y != (Y^ == T) : Y 와 Y^ 이 다르면서, 예측값이 T일때 Y != (Y^ == F) : Y 와 Y^ 이 다르면서, 예측값이 F일때 즉, TP , FN, FP, TN 이런 결과가 나오게 되는데..

머신러닝 2023. 5. 24. 19:05

[ML] iForest / Extended iForest 정리

이상치 탐지 Task를 참여하면.. 한번쯤 들어보는 알고리즘인 iForest... Forest계열은 언제나 옳다는 마음가짐으로 이상치 탐지 테스크를 할때마다 사용하고 한다. ( 할때마다 성능은 그닥...?) 그래서, 이번 기회에 iForest를 정리하고 확장된 개념인 Extended iForest 또한 정리하고자 한다. iForest는 ExtraTree기반을 사용하기 때문에 혹시 ExtraTree에 대해 잘 알고있으면 훨씬 수월할 것이다. Decision Tree가 어떻게 작동하는지 정도는 알고 해당 글을 봐야 어느정도 이해가 될것이라 생각한다. ExtraTree는 해당 글을 참고하길 바란다. https://sims-solve.tistory.com/93 [ML] Extra Tree (Extremely R..

머신러닝 2023. 4. 29. 16:48

[ML] XGBoost 기본 정리

https://www.youtube.com/watch?v=VHky3d_qZ_E&t=212s [해당 영상으로 공부하였습니다.] XGBoost > GBM의 성능, 스케일, 속도를 최적화하기 위해서 극한으로 빠르게. > 단, 약간의 성능 저하가 발생할 수 있음.(근사기법때문에 ,approximation) 데이터를 더 많이 사용할 수 있고, 병렬처리 가능하기때문에 근사기법의 단점을 극복할 수 있다. XGBoost는 GBM이지만, 보다 빠르게 해를 찾아감, 스케일링?(무슨뜻?) 1. Split finding algorithm 기본 tree - best split를 찾기위해 모든 구역 전수조사 ( 항상 최적의 구간을 찾을 수 있음. Greedy) - 메모리에 데이터 자체가 다 들어가지 않을 정도로 많은 데이터라면 ..

머신러닝 2023. 4. 9. 19:37

[ML] LGBM 기본 정리

해당 강의를 참고하여 공부하였습니다. https://www.youtube.com/watch?v=4C8SUZJPlMY 기존 GBM은 모든 feature, 모든 객체(row)에 대해 Scan을 진행하여 imformation gain을 측정해야 하기때문에, 시간적으로 오래 걸리며, sequential함. ( parallel 하지못함.) 위와같은 시간적 문제점을 해결하기 위해 XGBoost는 Bucket이라 부르는 단위로 쪼갠 후 Bucket안에 있는 데이터의 information gain을 측정하여 최적의 split을 approximate하는 방식을 사용하여 parallel할 수 있도록 만듬. > 모든 data instance을 스캔하는 것을 완하시켜 속도를 빠르게 함. Bucket = HistoGram-ba..

머신러닝 2023. 4. 9. 19:28

[ML] MCD ( Minimum Covariance Determinent ) - 2. MCD모델 원리

이전 포스팅에서는 마할라노비스 거리가 무엇인지 알아보았다. 마할라노비스 거리를 모른다면 해당 링크를 참고하여 공부하고 오길 바란다. https://angeloyeo.github.io/2022/09/28/Mahalanobis_distance.html 마할라노비스 거리 - 공돌이의 수학정리노트 angeloyeo.github.io MCD모델에 들어가기 앞서, 기본적으로 몇가지 알고 넘어가야 할 것이 존재한다. 1) 공분산 2개의 확률변수의 상관'관계' 만을 나타내는 값 ( Positive- 양수, Negative- 음수, None- 0 인지 관계만 나타내줌. 강도 X) 관계만 알 수 있는 이유는... X와 Y 두 변수가 있을때, 어느 한쪽의 단위 (e.g.) 몸무게를 Kg 으로 표시하던 걸 g으로 표시하게 되..

머신러닝 2023. 3. 31. 21:30

[ML] MCD ( Minimum Covariance Determinent ) - 1. 마할라노비스 거리 (Mahalanobis distances)

머신러닝중에 이상치 탐지 머신러닝을 찾다보니 MCD( Minimum Covariance Determinent ) 모델을 알게되었다. MCD모델을 공부하여 정리하는 글을 작성해보고자 한다. MCD는 최소 공분산 행렬을 만드는 데이터셋을 구축하고, 해당 데이터 셋의 피쳐들을 고려하여 데이터셋을 정규화시켜 유클리드 거리를 구하게 된다. 즉, 피쳐간 관계(맥락)을 고려 + 유클리드 거리 = 마할노비스 거리 가 되는 것이다. 마할라노비스 거리를 기준으로 이상치라 판단하기 때문에 마할라노비스 거리에 대해 정리해보고자 한다. https://angeloyeo.github.io/2022/09/28/Mahalanobis_distance.html 마할라노비스 거리 - 공돌이의 수학정리노트 angeloyeo.github.io..

머신러닝 2023. 3. 26. 16:48

[ML] GBM(Gradient Boosting Machine) - (2) Regressor 손으로 구하기

이번 포스팅에서는 GBM Regressor 안에 Decision Tree(DT)가 어떤 식으로 split하는지 알아보고자 한다. 이미 DT포스팅에서 어떻게 Split 하는지 포스팅을 했다. 그런데 왜 같은 내용을 또 하냐면... DT에서는 split 기준(criterion)공식을 squared_error로 사용한다. 하지만, GBM속 안 DT는 Friedman mse를 사용한다고 한다. 이 차이점 때문에 다시 한번 손으로 직접 구하는 포스팅을 하는 것이다. * 참고로, 기준(criteriion)의 의미는 IG(Information Gain)을 구할때 어떤 방식으로 구할지에 대한 기준이라 보면 된다. 혹시, 기존 DT에서 IG(Information Gain)을 구하는 방식을 모른다면, 한번쯤 보고 오는 것..

머신러닝 2023. 3. 23. 20:56

[ML] GBM(Gradient Boosting Machine) - (1) 실제 학습, 예측 방법

이번 포스팅은 GBM Regressor가 어떤 방식으로 동작하고, split 하는지 간단하게 손으로 구하는 포스팅이다. GBM의 기본적인 이론을 숙지한 후 보는 것을 추천드린다. https://sims-solve.tistory.com/96 [ML] GBM(Gradient Boosting Machine) - 정리 이번 포스팅에는 직접 GBM(Gradient Boosting Machine)을 살펴보려고 한다. boosting의 개념을 모른다면, 이전 글 ada boost를 보고 오길 바란다. boosting의 의미를 알아야 GBM을 알아가는데 직관적으로 와닿을 sims-solve.tistory.com 일단, GBM의 학습 과정을 간단하게 기술해 보았다. 밑 [그림 1]을 보고 천천히 이해해 보기 바란다. 딱..

머신러닝 2023. 3. 22. 18:12

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Sims의 문제해결 저장소

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30