'Tokenizer' 태그의 글 목록

LLM을 하다보면 '모델명-it/chat'과 같은 형식으로 허깅페이스에서 제공하는 모델들을 볼 수 있다.이러한 모델은 chatting 형식으로 fine-tuning하여 실제 모델과 이야기를 주고받는 형식으로 답변을 생성해준다. 이번에는 튜닝의 방식과 대표적인 데이터셋, 튜닝 방법에 대해 정리를 해보고자 한다. SFT - Supervised Fine-Tuning ( 정답이 존재하는 상태에서 진행 - next token prediction )SFT는 두가지로 나뉜다. 1) Full Fine-Tuning모델 전체의 파라미터를 수정하여 학습시킨다. LLM은 대체로 파라미터가 상당히 많으므로 상당한 GPU 자원이 필요한 단점이 있다. 2) Parameter-Efficient Fine-Tuning(PEFT) 모..

Deep-learning 2025. 2. 6. 20:00

[LLM] Tokenizer 기본

Tokenizer 기본 선언 방식from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained(CFG["model"])기존 본인이 사용하고자 하는 모델명, Tokenizer 위치를 파라미터에 넣어 불러오면 끝. 하지만, 위 방식으로 진행하면, 모델따로 토크나이저 따로 불러와 사용해야함.이걸 한번에 할 수 있는게 바로 pipeline 함수. # pipline을 이용하여 추론import transformersfrom transformers import AutoModelForCausalLM ,BitsAndBytesConfig# 4bit quantizationquantization_config = BitsAndBytesConfig..

Deep-learning 2025. 2. 1. 14:43

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

글 보관함

Sims의 문제해결 저장소

티스토리툴바