Sims의 문제해결 저장소

Confusion Matrix와 ROC Curve를 공부하여 나름대로 정리합니다. Confusion Matrix는 누가 이름을 지었는지 몰라도... 완벽한 네이밍이다. 볼때마다 내 머리속을 혼동시킨다.. 오늘 이해하고 넘어가보려 한다. Confusion Matrix는 실제(Y) , 예측 (Y^)을 가지고 Matrix를 만든다. 즉, 총 4가지 경우의 수가 나온다. Y == Y^ == T : Y 와 Y^ 이 같으면서, 예측값이 T일때 Y == Y^ == F : Y 와 Y^ 이 같으면서, 예측값이 F일때 Y != (Y^ == T) : Y 와 Y^ 이 다르면서, 예측값이 T일때 Y != (Y^ == F) : Y 와 Y^ 이 다르면서, 예측값이 F일때 즉, TP , FN, FP, TN 이런 결과가 나오게 되는데..

머신러닝 2023. 5. 24. 19:05

[ML] iForest / Extended iForest 정리

이상치 탐지 Task를 참여하면.. 한번쯤 들어보는 알고리즘인 iForest... Forest계열은 언제나 옳다는 마음가짐으로 이상치 탐지 테스크를 할때마다 사용하고 한다. ( 할때마다 성능은 그닥...?) 그래서, 이번 기회에 iForest를 정리하고 확장된 개념인 Extended iForest 또한 정리하고자 한다. iForest는 ExtraTree기반을 사용하기 때문에 혹시 ExtraTree에 대해 잘 알고있으면 훨씬 수월할 것이다. Decision Tree가 어떻게 작동하는지 정도는 알고 해당 글을 봐야 어느정도 이해가 될것이라 생각한다. ExtraTree는 해당 글을 참고하길 바란다. https://sims-solve.tistory.com/93 [ML] Extra Tree (Extremely R..

머신러닝 2023. 4. 29. 16:48

[알고리즘] 플로이드 워셜 최단거리 알고리즘

다익스트라, 벨만포드, 플로이드 워셜 ... 다 최단거리를 구하는 대표적인 알고리즘이다. 하지만 '최단거리'를 구한다는 공통적인 목표가 있지만, 각자 서로 다른 특징이 있기에 여러 알고리즘이 나눈다. 1. 다익스트라 장점 : 양의 간선이 존재할때 빠르게 최단거리를 구할 수 있다. 단점 : 음의 간선이 존재할때는 최단거리를 보장할 수 없다. 2. 벨만포드 장점 : 음의 간선이 존재할때 최단거리를 구할 수 있다. 단점 : 음의폐로가 존재할 수 있다. / 시간이 오래걸린다. 3. 플로이드 워셜 장점 : 하나의 정점에서 시작하여 다른 정점의 최단거리를 구하는 것이 아닌, 모든 정점을 기준으로 각 정점에 최단거리를 구한다. 단점 : 시간이 오래 걸린다. 위처럼 장/단점이 존재하기에 여러 최단거리 알고리즘이 있는데..

카테고리 없음 2023. 4. 10. 16:47

[알고리즘] 벨만포드 최단거리 알고리즘 정리

최단경로 알고리즘에는 다익스트라, 벨만포드, 플로이드 워셜 ... 이 가장 대표적인 알고리즘이다. 이번 포스팅은 벨만포드에 대해 알아보도록 하겠다. 이미 다익스트라 알고리즘을 알고있는 상태에서 왜 벨만포드 알고리즘이 따로 존재하고, 사용되는 것일까? 다익스트라 알고리즘와 벨만포드 알고리즘은 둘다 최단거리를 구할 수 있는 알고리즘임에 분명하다. 하지만 두 알고리즘에는 차이점이 존재한다. 다익스트라 알고리즘의 단점을 생각해보면 알 수 있다. 다익스트라 알고리즘은, 모든 간선의 길이가 양수(+)일때 최단거리를 보장한다. 혹여나 음수(-)의 간선이 존재한다면.. 최단거리를 구할 수 있지 못할 수도 있다. 벨만포드는 이러한 다익스트라의 단점을 해결할 수 있는 최단거리 알고리즘이다. 즉, 간선이 어떤 형태 ( 양수..

알고리즘 2023. 4. 10. 11:41

[ML] XGBoost 기본 정리

https://www.youtube.com/watch?v=VHky3d_qZ_E&t=212s [해당 영상으로 공부하였습니다.] XGBoost > GBM의 성능, 스케일, 속도를 최적화하기 위해서 극한으로 빠르게. > 단, 약간의 성능 저하가 발생할 수 있음.(근사기법때문에 ,approximation) 데이터를 더 많이 사용할 수 있고, 병렬처리 가능하기때문에 근사기법의 단점을 극복할 수 있다. XGBoost는 GBM이지만, 보다 빠르게 해를 찾아감, 스케일링?(무슨뜻?) 1. Split finding algorithm 기본 tree - best split를 찾기위해 모든 구역 전수조사 ( 항상 최적의 구간을 찾을 수 있음. Greedy) - 메모리에 데이터 자체가 다 들어가지 않을 정도로 많은 데이터라면 ..

머신러닝 2023. 4. 9. 19:37

[ML] LGBM 기본 정리

해당 강의를 참고하여 공부하였습니다. https://www.youtube.com/watch?v=4C8SUZJPlMY 기존 GBM은 모든 feature, 모든 객체(row)에 대해 Scan을 진행하여 imformation gain을 측정해야 하기때문에, 시간적으로 오래 걸리며, sequential함. ( parallel 하지못함.) 위와같은 시간적 문제점을 해결하기 위해 XGBoost는 Bucket이라 부르는 단위로 쪼갠 후 Bucket안에 있는 데이터의 information gain을 측정하여 최적의 split을 approximate하는 방식을 사용하여 parallel할 수 있도록 만듬. > 모든 data instance을 스캔하는 것을 완하시켜 속도를 빠르게 함. Bucket = HistoGram-ba..

머신러닝 2023. 4. 9. 19:28

[ML] MCD ( Minimum Covariance Determinent ) - 2. MCD모델 원리

이전 포스팅에서는 마할라노비스 거리가 무엇인지 알아보았다. 마할라노비스 거리를 모른다면 해당 링크를 참고하여 공부하고 오길 바란다. https://angeloyeo.github.io/2022/09/28/Mahalanobis_distance.html 마할라노비스 거리 - 공돌이의 수학정리노트 angeloyeo.github.io MCD모델에 들어가기 앞서, 기본적으로 몇가지 알고 넘어가야 할 것이 존재한다. 1) 공분산 2개의 확률변수의 상관'관계' 만을 나타내는 값 ( Positive- 양수, Negative- 음수, None- 0 인지 관계만 나타내줌. 강도 X) 관계만 알 수 있는 이유는... X와 Y 두 변수가 있을때, 어느 한쪽의 단위 (e.g.) 몸무게를 Kg 으로 표시하던 걸 g으로 표시하게 되..

머신러닝 2023. 3. 31. 21:30

docker 관련 정리

container docker run -it --gpus all --name - 컨테이너 생성 docker container ls/ docker ps - 실행중인 container 확인 docker ps -a - 모든 컨테이너 확인(실행 , 종료된) docker start - 종료된 Container를 시작 docker attach - command안에서 aws command 들어가듯 접속 Ctrl + P / Q - container command 탈출 ( -it 옵션이 없다면, 나가는 순간 컨테이너 종료 / 있다면 종료 안됨) docker rm - 컨테이너 삭제 docker cp :// images docker pull : - 이미지 받아오기 docker images - 현재 있는 이미지 확인 dock..

깃(Git) & 도커(Docker) 2023. 3. 30. 17:08

« 2025/10 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

티스토리툴바