Skip to content

Transformer

트랜스포머(Transformer)는 2017년 구글이 발표한 논문인 "Attention is all you need"에서 나온 모델로 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, 논문의 이름처럼 어텐션(Attention)만으로 구현한 모델입니다. 이 모델은 RNN을 사용하지 않고, 인코더-디코더 구조를 설계하였음에도 번역 성능에서도 RNN보다 우수한 성능을 보여주었습니다.

Categories

Projects

  • Bark - 트랜스포머 기반의 Text-To-Audio 모델
  • BitNet-Transformers - Integer 값으로 Weight 구성 (더 빠른 훈련, 더 적은 모델 크기) etc .. <- 확인 필요.
  • RustGPT - Rust로 처음부터 완전히 구현한 순수 트랜스포머 LLM
  • ntransformer - 싱글 RTX 3090에서 Llama 3.1 70B를 실행하는 NVMe-to-GPU 추론 엔진

Attention

Documentation

트랜스포머 작동원리 v1 (b5t)
Transformer_Operating_Principle_v1.pdf

See also

Favorite site

References


  1. The_Illustrated_Transformer_-Jay_Alammar-_Visualizing_machine_learning_one_concept_at_a_time.pdf