티스토리 뷰

늘 항상 고민인게 있다.

바로 피쳐를 어떻게 선택/삭제할 것인가이다.

 

어떤 대회는 아주 적은 피쳐로 점수가 높아지는 대회가 있는 반면, 피쳐가 다양해야 높은 점수를 얻을 수 있는 대회도 존재한다.

즉, 피쳐가 많고 적고의 답은 없는것 같다.

 

그중 피쳐를 삭제하고자 할때 개인적으로 X와 Y의 상관관계를 보고 시작한다.

그러다 보면.. 반드시 다중 공선성이 존재하는 피쳐가 존재하는 것을 볼 수 있을것이다.

 

그럼 다중공선성이 존재하는 피쳐는 어떻게 해야할까? 놔둬야하나? 지워야 하나? 늘 고민이다..

 

고민을 하던 와중 이 글을 보고 하나 배웠다.

https://blog.pabii.co.kr/multicollinearity-famous-but-stupid/

 

다중공선성과 Random Forest에 대한 "업계 유명한" 사람의 글 – 파비블로그

우리 학교 게시판에 TA 중 한 분이 어디선가 글을 퍼 오셨는데, 학교 게시판에만 답을 쓸 내용이 아니라, 외부에 공유드리는 편이 더 도움이 될 것 같아 평소 수업 시간에 설명한 내용들을 추가해

blog.pabii.co.kr

대개 머신러닝으로 문제를 해결하려고 하면, 대부분 트리기반의 모델들을 자연스럽게 많이 쓰게 된다.(성능이 좋으니까!)

그럼.. 트리 모델을 사용할때 다중공선성을  신경써야하는가? 물어본다면.. 답은 NO라고 한다.

 

위 블로그 글을 보면 아주 잘 설명되어 있으니 참조해보자!

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함