Skip to content

Transformer

트랜스포머(Transformer)는 2017년 구글이 발표한 논문인 "Attention is all you need"에서 나온 모델로 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, 논문의 이름처럼 어텐션(Attention)만으로 구현한 모델입니다. 이 모델은 RNN을 사용하지 않고, 인코더-디코더 구조를 설계하였음에도 번역 성능에서도 RNN보다 우수한 성능을 보여주었습니다.

Categories

Self Attention

Projects

Bark - 트랜스포머 기반의 Text-To-Audio 모델
BitNet-Transformers - Integer 값으로 Weight 구성 (더 빠른 훈련, 더 적은 모델 크기) etc .. <- 확인 필요.
RustGPT - Rust로 처음부터 완전히 구현한 순수 트랜스포머 LLM
ntransformer - 싱글 RTX 3090에서 Llama 3.1 70B를 실행하는 NVMe-to-GPU 추론 엔진

Attention

Attention in transformers, step-by-step | DL6 - YouTube - 3Blue1Brown

Documentation

트랜스포머 작동원리 v1 (b5t): Transformer_Operating_Principle_v1.pdf

See also

Deep learning
TTS
seq2seq
NLP
HuggingFace:Transformers
MiniMax-M1 - 오픈-웨이트, 대규모 하이브리드 어텐션 추론 모델

Favorite site

References

The_Illustrated_Transformer_-Jay_Alammar-_Visualizing_machine_learning_one_concept_at_a_time.pdf ↩