티스토리 뷰

Pytorch

[Pytorch] torchtext vocab생성

Sims. 2023. 1. 31. 21:04

torchtext의 버전이 바뀌면서.. 1년이 지난 지금.. '실전! 파이토치 딥러닝 프로젝트' 책의 모든 자연어 프로젝트가 모두 실행되지 않는다.. 물론 torchtext=0.5.0으로 다운그레이드하여 사용하면 되지만.. 비전이 올라갔는데 그럴순 없었다..

 

죽은 코드를 한번 살려보기위해 torchtext를 정리해보고자 한다.

 

* build_vocab_from_iterator  > vocab을 만들어주는 함수

  • iterator(iterable) – 들어가야 하는 형식
  • min_freq(int) – 최소 빈도수 지정(최소 빈도수를 넘지 못하는 단어는 vocab에 넣지 않음)
  • specials(str) – 스페셜 심볼. <unk>,<eos>,<sos>와 같은 토큰들을 넣을 수 있음
  • special_first(bool)– 스페셜 심볼을 vocab의 맨앞(True) ,맨위(False)를 지정 -> index값이 달라짐
  • max_tokens(int) – 빈도수가 높은 단어 n개 만큼만 vocab에 저장

<example>

위와같이 build_vocab_from_iterator를 사용하여 vocab을 만들기 위해서는,

yield형식이나, 토큰나열의 형태가 들어가야 한다. 파라미터는 위에 적어놓았으니 참고하면 도움이 될 것이다.

 

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함