Attention

신경망에서 주의 집중(attention, 어텐션)은 인지심리학에서의 주의를 모방하여 고안된 기술이다. 주의 집중은 입력 데이터 중 일부의 효과를 증강시키며, 다른 일부를 감소시킨다. 이는 네트워크가 데이터 중 비중이 적지만 중요한 데이터에 더 집중하게 하기 위해서이다. 데이터 중 어느 부분을 학습하는 것이 다른 부분을 학습하는 것보다 더 중요한지는 문맥에 따라 결정되며, 이는 경사하강법으로 학습된다.

어텐션이나 이와 유사한 메커니즘은 1990년대에 곱셈 모듈, 시그마 파이 단위, 하이퍼네트워크와 같은 이름으로 도입되었다. 주의 집중의 유연성은 런타임 동안 고정되어 있는 표준 가중치와는 달리, 런타임 도중에 변경될 수 있는 '소프트 가중치'로서의 역할에서 온다.

주의 집중은 뉴럴 튜링 머신의 기억, 미분가능 뉴럴 컴퓨터의 추론 작업, 트랜스포머 계열 모델의 언어 처리, 지각자(perceiver)의 다중 감각 데이터 처리 (소리, 이미지, 영상, 텍스트) 등에 활용된다.