티스토리 뷰

728x90

디텍션 테스크를 하다보면 YOLO를 한번쯤은 들어본적이 있을 것이다.

물론 YOLO가 너무 유명해서 관심이 없어도 한번쯤은 들어봤을 것이다..

 

디텍션에는 2-stage / 1-stage 두개로 나뉘는데, YOLO는 1-stage로 bbox, classification 두개를 한번에 하는 모델 구조를 말한다.

(반대로 2-stage는 localizaion 과 classification을 다른 두개의 모델을 이용하여 예측하게 된다. )

 

 

해당 포스팅은 realtime detection의 가장 큰 부분을 차지하는 YOLO에 대해 알아보고, 특히 v8에 대해 정리하고자 한다.

 

실질적으로 ultralytics가 배포한 yolov8n의 모델은 어떻게 구성되어있는지 살펴보고, code가 어떻게 구성되어 있는지도 공부해보려한다.

 

1. yolov8 Architecture

 

사진 1

위 사진 1.은 YOLOv8의 아키텍쳐다. YOLOv8은 Backbone + Head 부분으로 구분되어 있는데 이번 포스팅은 Backbone의 과정을 손으로 계산해보면서 shape을 중점으로 보고자 한다.

 

아래는 Backbone의 과정을 지나가면서 어떻게 shape이 바뀌는지 직접 손으로 작성해 보았다.

크게 다른 부분은 없지만, 직접 손으로 해보니 보다 Backbone의 과정을 알 수 있었다.

 

 

디테일하게 C2f / Bottleneck / SPPF / Conv까지 자세히 설명되어 있으니 참고하면 좋을 것 같다.

 

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함