HomeAboutMeBlogGuest
© 2025 Sejin Cha. All rights reserved.
Built with Next.js, deployed on Vercel
장지원 페이지/
기계학습개론
기계학습개론
/
#99. Paper Review(1)

#99. Paper Review(1)

선택
paper review
참고 자료
[16-01 트랜스포머(Transformer) - 딥 러닝을 이용한 자연어 처리 입문 (wikidocs.net)](https://wikidocs.net/31379)  [대규모 언어 모델이란 무엇인가? | LLM 종합 안내서 | Elastic](https://www.elastic.co/kr/what-is/large-language-models)Large Language Model (3) : In-Context Learning, 남은 이야기들 (tistory.com)https://brunch.co.kr/@chorong92/20
텍스트
Mar 28, 2024
보편적으로 사용되는 분야 (정해진 것은 아님,classification model이 regression할 수 있도록 할 수 있다)
차수 (일주일 단위)
99-1.

[Origin]

 
[2212.07677] Transformers learn in-context by gradient descent (arxiv.org)
 

[Summary]

 
트랜스포머와 GD, MLP 트랜스포머와 meta 학습
 

[Contents]

 
📌
배경 지식
[In-context learning]
대규모 언어 모델(LLM)이란?
LLM(Large Language Model)은 다양한 자연어 처리(NLP)를 할 수 있는 딥러닝 알고리즘 이다. ⇒ 글 번역, 글 생성 등의 작업을 할 때 사용한다.
Transformer란?
LLM의 대표적인 architecture이다. RNN이 아닌 Attention 기반으로써 자연어 처리에서 좋은 모습을 보인다.
자세히
notion image
  1. Positional Encoding(PE)
    1. 모델이 단어의 위치를 알 수 있게 한 것
  1. Multi-head Self-Attention in Encoder
    1. 유사도를 측정하여 연관 높은 단어를 찾는 것
  1. Masked Multi-head Attention in Decoder
    1. 문장을 생성하거나 정답을 도출
  1. Multi-head Attention in Decoder
    1. 정보를 encoder to decoder
  1. FeedForward Network
    1. 단순 MLP 연산
(참고하면 좋은 자료)
In-context learning(ICL)이란?
  • fine tuning
    • LLM을 바탕으로 ‘재훈련’
  • ICL
    • LLM에게 질문을 잘하자! (few-shot, zero-shot)
(참고하면 좋은 자료)
[Transfomer and Attention]
Attention
(참고 자료)
Transfomer
  • self attention: 자기 자신에게 attention을 취한다.
(참고 자료)
트랜스포머(Transformer)와 어텐션 매커니즘(Attention Mechanism)이란 무엇인가? (velog.io)
[Meta-Learning]
학습하는 법을 학습한다.
 
Point: gradient-based optimization and attention-based in-context learning are equivalent
정리..
트랜스포머와 GD 방식이 유사하다는 가정. → 엥 실제로도 엄청 유사하잖아! → 트랜스포머는 GD로 학습할 거야! ⇒ 이거 증명하는 것이 첫 번째 문제
이를 바탕으로 트랜스포머와 MLP(GD) 결합(=트랜스포머에서의 in context 학습)→ 비선형 문제도 해결 가능해 진다.
메타 학습과 트랜스포머와 MLP(GD)(=트랜스포머에서의 in context 학습) 두 가지도 비교해 본다.
트랜스포머와 MLP를 메타 학습 관점에서도 볼 수 있다. → 트랜스포머와 MLP를 결합한다는 것은 메타 학습을 하는 것이다.

Point1: GD는 가중치 업데이트X, 데이터 값을 업데이트 하는 것이다.
Point2: 특정 가중치 구성을 통해 훈련된 트랜스포머는 GD와 매우 유사하다. (proposition)
Point3: 여러 가지 방법을 통해 우리가 설정한 가중치들이 맞는 지 확인해보자.
Point4: 실제로 두 개는 매우 비슷하다. 비슷하다는 것도 경험적으로 확인해 볼 수 있다.
Point5: 두 모델의 여러층에 대해서 비교해보자. 여러 층에 대해서도 비슷하다는 것을 경험적으로 확인해볼 수 있다. 이는 “둘의 구성이 비슷하다”라고 한다.
Point6: 트랜스포머를 경사 기반으로 설명할 수 있다. 그런데 소프트 맥스 함수가 더 많이 사용되곤 한다. 선형에서의 GD와 소프트 맥스 함수 두 가지에 대해 성능을 비교해볼 필요는 있다.
Point7: 트랜스포머의 ICL에서의 높은 학습률을 GD(linear model)로 해석하는 것은 한계점이 있다. 이는 트랜스포머의 self attention 층 전에 MLP를 넣으면 된다. 이를 통해서 설명할 수 있다. (proposition)
Point8 트랜스포머가 스스로 토큰(가중치)를 구성할 수 있을까? softmax 함수를 이용하면 된다.
Point9: 이 논문은 GD로 더 나은 학습을 구현할 가능성이 있다는 것을 제시한다.
 
 
 
 
[Abstract] → Tranfomer GD 방식의 유사성& Transfomer가 최적화 되기 위해 GD를 사용한다.
Transformer In context learning(few-shot: 몇 개의 예시를 통한 질문을 해서 정답을 요구하는 것) 내 학습 메커니즘이 잘 이해되지 않고 있다.
이 논문에서는 Transformer의 auto-regressive objectives(잘 이해되지 않는 메커니즘) 훈련이 gradient-based meta learning formulations과 밀접하다고 제안한다. → 의문 & 이를 통해 이해해보고자 한다.
위가 밀접하다는 것을 어떻게 증명??
  • a single linear self-attention layer에 의해 변환된 데이터
  • gradient descent (GD) on a regression loss의해 변환된 데이터
둘 의 유사성을 보여줄 수 있는 가중치 구성을 제공한다.
이 가중치 구성을 통해서 보이는 것
간단한 선형 작업을 수행하는
  • self-attention-only Transformers를 훈련 시켰을 때, GD와 유사한 결과를 보이거나, 최적화된 가중치가 위의 가중치 구성과 일치했다.
우리가 알 수 있는 것
이를 통해 Transformers가 mesa-optimizers가 되기 위해 forward 방향으로 GD를 사용한다는 것을 알 수 있다. → 이게 최종 결론 & 의문에 대한 해답
+ 제한된 domain인 regression영역에서 이지만 최적화된 transfomer의 context 학습 내에서의 내부 작동을 기계적으로 이해할 수 있다.
이것을 바탕으로!
Transfomer가 어떻게 단순 경사하강법을 능가하는 지에 대해서도 알아볼 것이다 ← non-linear문제를 해결하는 법에 대해서 알아보며
Fin
context 학습에서 중요하다고 알려진 메커니즘인 induction-head에 대해 알아보고, 이를 in-context learning by gradient descent learning within Transformers(Transformer 내의 기울기 하강 학습에 의한 컨텍스트 내 학습) 의 특정한 경우로 이해할 수 있는 방법에 대해 알아본다.
[Introduction]
Transformer의 소개
트랜스포머의 성공은 context 학습에 기인한다!??
입력 시퀀스가 추가적인 데이터로 예측을 유연하게 조정할 수 있다 (context learning이 이런 것 이므로)
In context learning
ICL은 few shot learning, meta learning(= GD를 사용한 learning)에 대해 다른 접근 방식을 제공하지만 아직 잘 이해되지 않고 있다 (질문: few-shot은 ICL 속하는 것 아닌가?). 그러므로 트랜스포머가 맥락에 주의를 기울이게 하는 요소가 무엇이며, 그 메커니즘이 무엇이며, 어떤 상황에서 작용하는지를 이해하는 것은 매우 중요하다
⇒ 그냥 이 부분에서는 Transfomer를 이해하는 것이 중요하다 정도만 이해하고 넘어가면 될 듯
ICL과 meta 사이의 간극을 줄일 것이다. → 위에서 transfomer와 GD 사이 간극을 줄인다고 한 것과 같은 말
또한 보여줄 것이다. 트랜스포머에서의 ICL이 gradient-based few-shot learning를 근사화 할 수 있는(?) 새로운 속성임을(?)..
notion image
위 그림을 참고해 보자…
그림 설명: 1. GD 가중치 설정 후 output 출력, output 이후에도 meta parameter 설정 후 메타 학습 진행 2. 트랜스포머의 쿼리 파라미터는 예측을 잘 하는 방향으로 최적화된다. 3. 가설: data로 GD할 때와, data를 context로 취급해서 transfomer쓸 때와 결과가 동일하다.
위를 실현하기 위해서 트랜스포머가 어떻게 loss를 구성하는지 보여줄 것이고, 이를 바탕으로 GD하는 법을 보여줄 것이다.
요약
  1. linear self-attention layer의 명시적인 가중치를 설정한다. 이를 통해 GD에서와의 동일한 업데이트를 유도한다. 추가로 self-attention layer가 곡률 보정을 하는 법에 대해서도 이야기 한다.
  1. 선형 회귀 분석을 진행해 보고, linear self-attention-only Transformer가 우리의 명시적인 가중치 구성에 수렴한다는 것을 증명한다. 이는 경사 하강법으로 훈련된 모델과 매우 근사하다.
  1. 트랜스포머 아키텍처에 다층 퍼셉트론(MLP)을 추가함으로써, 우리는 비선형 회귀 작업을 트랜스포머 내에서도 해결할 수 있다. 이것은 실제로 깊은 표현에 대한 선형 모델을 학습하는 것과 유사하다는 것을 보여준다. 또한 커널 회귀와 같은 기법과 관련이 있으며, 실험 결과로는 메타 학습된 MLP와 GD로 훈련된 트랜스포머 간에 매우 유사한 해결책을 보여준다.
  1. 토큰 문제를 해결하기 위해 트랜스포머가 경사하강으로 문제를 해결한다는 것을 증명한다.
[Introduction] - 2
메타학습과 트랜스포머의 학습
self-attention transfomer이 메타 학습을 한다!?? → 메타 학습 관점에서도 이해해 볼 수 있다.
메타학습과 트랜스포머의 학습
deep에서의 meta 학습과 ICL에서의 tranfomer(=트랜스포머+MLP)를 연결할 수 있다.
트랜스포머가 입력만으로 전방 학습한다.
== GD를 이용해서 메타 학습 한다고 해석할 수 있다.
→ 이를 통해 언어 모델의 맥락 학습을 이해해 볼 수 있다. 우리가 세운 가설 메커니즘과 비슷한 방식으로 동작한다는 것을 알 수 있다.
뭐.. 우리의 가정이 self-attention에만 한정된 것일 수도 있다…
그러나 암튼 뭐.. 우리는 밑의 가설을 제시한다! 이는 굉장히 다른 접근이라 매우 참신하다!!
📌
가설
트랜스포머의 경사하강법을 통한 맥락 학습. 트랜스포머의 맥락 학습은 경사 하강법에 의해서 최적화 된다.
이 뒤는 가설을 바탕으로 모델을 설명하는 내용인 듯 싶다…
[Linear self-attention can emulate gradient descent on a linear regression task]
[Intro]
multi-head self attention에 대한 리뷰
뭐 이렇다..
[Data transformations induced by gradient descent]
Point1
LSA가 경사하강법과 관련있다.
  • 경사 하강은 loss에 대한 업데이트. 가중치가 아닌 값 update ( = kernel smoothing) → 이걸 data를 업데이트 한다고 해석한다.
  • 다시 self attention으로 돌아와서 용어 정리: training = query, in context data = token/data
⇒ 뭐.. 여기서 결론: 선형 작업은 가중치 고치는 게 아니라 데이터 직접 수정하는 거다.
[Transformations induced by gradient descent and a linear self-attention layer can be equivalent]
경사 하강과 선형 셀프 어텐션 레이어에 의한 변환은 동일하다.
이를 더 연관 짓기 위해 가중치 구성을 제공한다? → 여기 이해가 안간다…
++ 도움이 될 만한 개념
  • Full-self attention: 우리의 모델은 ICL 데이터만을 활용한다. train data만을 이용하여(따라서 query는 사용하지 않는다) GD를 한다. 이것이 full self attention과의 차이이다. 가중치가 0일 때 이 상황이 발생한다(?)
  • reading out predictions: 예측값 읽기 → 수식을 통해 예측값을 업데이트 한다(?)
  • uniqueness: 가중치 구성이 꼭 유일 하지는 않다.
  • Meta-learned task-shared learning rates: 메타 학습이란 것이 있다. 경사 하강법을 최적화 하기 위해 사용되었다. ICL 에서도 사용할 수 있다.
  • Task-specific data transformations: 간단한 가설 함수를 사용하고, 이 때문에 속도가 빠르다.
[Trained Transformers do mimic gradient descent on linear regression tasks]
훈련된 트랜스포머는 선형 회귀에서 GD를 따라할 수 있다.
 
[Trained Transformers do mimic gradient descent on linear regression tasks]
훈련된 트랜스포머는 선형 회귀 작업에서 경사 하강을 모방한다.
  1. 훈련된 트랜스포머 구성하기
  1. minθ Eτ[||ˆ yθ({eτ,1,...,eτ,N},eτ,N+1) − yτ,test||2]: 예측은 토큰 및 가중치 theta에 의해 결정된다.
  1. 데이터를 고정하고 theta를 찾는다. theta 찾는 건 메타 학습이라고 할 수 있다.
[One-step of gradient descent vs. a single trained self-attention layer]
경사 하강의 한 단계와 훈련된 단일 자기 어텐션 레이어 비교
  1. 훈련된 트랜스포머 확인하기
    1. 명제를 통한 가중치 구성
    2. 밑 식을 최소화 하는 가중치 구성
      1. notion image
⇒ 뭐.. 두 모델을 대충 비슷했다. 근데 자세한 알고리즘은 다룰 수 있어.. 이 문제를 해결하기 위해 더 정확한 분석을 진행하였다.
1) Interpolation: 가중치 보강 및 보간 방법으로도 구할 수 있다.
2) Out-of-distribution validation tasks: ICL 학습자가 일반화 가능한 규칙을 찾았는지 알아보았다.
3) Repeating the LSA update
4) .
notion image
[Multiple steps of gradient descent vs. multiple layers of self-attention]
여러 층에서의 적용: multiple layers of self-attention
여러 층에서의 적용 효과를 관찰하기 위해 2층 LSA 모델 탐구
단순히 동일한 층을 2번 겹친다. ⇒ GD++와 비슷한 효과를 가진다.
훈련된 Transfomer는 GD를 능가했지만 재귀적으로 얹어진 Transfomer는 GD++와 다시 정렬되었다.
5층 LSA 모델 탐구
가중치 보간을 하면 5층에서 역시 두 모델이 비슷해 진다. → 더 나은 보간 방법은 더 연구가 필요하다.
⇒ 트랜스포머의 맥락 학습 능력이을 경사 하강에 기반해 설명할 수 있다.
⇒ 트랜스포머를 사용하는 것과 경사 하강을 사용하는 것을 비교할 필요가 있다.
요약
이 연구는 깊은 선형 자기 주의만을 사용하는 변환기 모델을 탐구합니다. 여러 층의 자기 주의를 쌓으면 일반적인 경사 하강법보다 우수한 성능을 보이는 것을 발견합니다. 이를 GD++라는 변형 경사 하강법으로 설명하며, 이는 단일 매개변수인 γ를 튜닝하여 변환 함수를 사용하여 입력 데이터를 변환합니다. 이후 다중 층 구조의 변환기를 살펴보고, 재귀적인 접근과 비재귀적인 접근의 결과를 비교합니다. 또한 선형 자기 주의에 대한 성능과 표준 소프트맥스 주의의 성능을 비교하고, 선형 자기 주의가 표준 방법보다 더 나은 결과를 보인다는 결론을 내립니다. 이 연구 결과는 표준 Transformer 아키텍처의 성능이 경사 기반 학습 가설로 설명될 수 있음을 제안하며, 선형 자기 주의가 소프트맥스 주의보다 더 나은 결과를 가져올 수 있음을 시사합니다.
[Transformers solven on linear regression tasks by gradient descent on deep data representations]
Non-linear task의 해결
하지만 ICL에서의 transfomer의 학습률을 linear 모델에서 경사 하강으로 해석하는 것은 한계가 있다. 이전 self attention 층에 MLP(multi layer perceptron → 비선형 문제 해결)를 넣으면 된다. (최소제곱 문제 해결?)
[Do self-attention layers build regression tasks?]
트랜스포머가 스스로 토큰을 구축할 수 있을까?
소프트맥스 함수를 바탕으로 한 트랜스포머가 선행되어야 한다.
[Discussion]
결론
  • ICL은 트랜스포머의 경사 하강 기반으로 최적화 된다고 볼 수 있다.
  • 깊은 학습을 할 수 있다. (여러 층)
 
 

GPT
Abstract
현재로서는 Transformer의 컨텍스트 내 학습 메커니즘에 대한 매커니즘이 잘 이해되지 않고 주로 직관에 의존하고 있습니다. 본 논문에서는 Transformer를 자가 회귀적 목적으로 훈련하는 것이 기울기 기반 메타 학습 공식과 밀접한 관련이 있다고 제안합니다. 우리는 먼저 단일 선형 self-attention 레이어에 의해 유도된 데이터 변환과 회귀 손실에 대한 기울기 하강(GD)에 의해 유도된 데이터 변환 사이의 동등성을 보여주는 간단한 가중치 구성을 제공합니다. 이 구성에 영감을 받아 우리는 경험적으로, 간단한 회귀 작업에서 self-attention-only Transformer를 훈련할 때, GD와 Transformer가 학습한 모델이 큰 유사성을 보이거나, 놀랍게도, 최적화된 가중치가 구성과 일치하는 것을 보여줍니다. 따라서 우리는 훈련된 Transformer가 forward pass에서 기울기 하강을 통해 모델을 학습하도록 되어 있어, 적어도 회귀 문제의 영역에서 최적화된 Transformer의 컨텍스트 내 학습의 내부 작동을 기계적으로 이해할 수 있습니다. 이 통찰력을 바탕으로, 우리는 또한 Transformer가 반복적인 곡률 보정을 학습하고 깊은 데이터 표현에서 선형 모델을 학습하여 비선형 회귀 작업을 해결함으로써 평평한 기울기 하강의 성능을 능가하는 방법을 식별합니다. 마지막으로, 우리는 컨텍스트 내 학습에 중요한 메커니즘으로 확인된 induction-head (Olsson et al., 2022)와의 흥미로운 유사성을 논의하고, 이를 Transformer 내의 기울기 하강 학습에 의한 컨텍스트 내 학습의 특정한 경우로 이해할 수 있는 방법을 보여줍니다.
Introduction
최근 몇 년간 Transformer(TFs; Vaswani et al., 2017)는 다양한 기계 학습 벤치마크 및 현대 기계 학습의 여러 분야에서 우수성을 입증하고 현대 인공 지능에서 사용되는 사실상의 신경망 아키텍처로 등장했습니다 (Dosovitskiy et al., 2021; Yun et al., 2019; Carion et al., 2020; Gulati et al., 2020). 이들의 성공은 일부로 컨텍스트 내 학습(in-context learning)이라는 현상에 기인한다는 가설이 제기되었습니다 (Brown et al., 2020; Liu et al., 2021): 추가 데이터가 컨텍스트(즉, 입력 시퀀스 자체)에서 제공될 때 그 예측을 유연하게 조정할 수 있는 능력입니다. 컨텍스트 내 학습은 몇 가지 샷 및 메타 학습(few-shot and meta-learning)에 대한 보편적인 접근 방식으로 보입니다 (Brown et al., 2020) 그러나 현재까지 그 작동 메커니즘이 완전히 이해되지는 않았습니다. 따라서 Transformer가 컨텍스트에 주의를 기울이는 요소는 무엇인지, 그 메커니즘이 무엇인지, 그리고 어떤 상황에서 그것들이 작동하는지를 이해하는 것은 매우 중요합니다 (Chan et al., 2022b; Olsson et al., 2022).
본 논문에서는 컨텍스트 내 학습과 메타 학습 간의 간극을 줄이고, Transformer 내의 컨텍스트 내 학습이 그 전방 통과 내에서 기울기 기반의 샷 학습을 근사하는 새로운 속성임을 보여줍니다. 이를 실현하기 위해, Transformer가 (1) 시퀀스에서 주어진 데이터에 의존하는 손실 함수를 구성하고 (2) 그 손실의 기울기를 기반으로 학습하는 방법을 보여줍니다. 먼저 후자인 더 복잡한 학습 작업에 초점을 맞추고, 그 후 섹션 2와 3에서는 전자에 대한 증거를 제시합니다.
우리의 기여를 요약하면 다음과 같습니다:
  • 선형 self-attention 레이어에 대한 명시적인 가중치를 구성하여 평균 제곱 오차 손실에 대한 단일 기울기 하강(GD) 단계와 동일한 업데이트를 유도합니다. 추가로, 여러 self-attention 레이어가 평평한 기울기 하강을 향상시키는 곡률 보정을 반복적으로 수행하는 방법을 보여줍니다.
  • 선형 회귀 데이터셋에서 최적화할 때, 선형 self-attention-only Transformer가 우리의 가중치 구성에 수렴하고 따라서 기울기 하강을 구현하거나, GD에 의해 훈련된 모델과 in- 및 out-of-distribution 유효성 검사 작업에서 근접한 선형 모델을 생성함을 시연합니다.
  • Transformer 아키텍처에 다층 퍼셉트론(MLP)을 통합함으로써, 우리는 Transformer 내에서 비선형 회귀 작업을 해결할 수 있도록 하여 그것을 깊은 표현에서 선형 모델을 학습하는 것과 동등하다는 것을 보여줍니다. 우리는 커널 회귀와 비모수적인 커널 평활화 방법과의 연결을 논의합니다. 경험적으로, 우리는 메타 학습된 MLP와 출력 레이어의 단일 기울기 하강 단계를 비교하여 훈련된 Transformer와 식별된 솔루션 간의 놀라운 유사성을 보여줍니다.
  • 우리는 학습된 Transformer가 후방 통과의 후방 기울기 하강 학습에 적합한 형식으로 들어오는 토큰을 먼저 인코딩하는 것을 증명함으로써 특정 토큰 구성에 대한 종속성을 해결합니다.
이러한 결과는 Transformer 가중치의 학습과 메타 학습 알고리즘 (Schmidhuber, 1987; Hinton & Plaut, 1987; Bengio et al., 1990; Chalmers, 1991; Schmidhuber, 1992; Thrun & Pratt, 1998; Hochreiter et al., 2001; Andrychowicz et al., 2016; Ba et al., 2016; Kirsch & Schmidhuber, 2021) 개념 사이의 관계를 이해할 수 있게 해줍니다. 이 연구 분야에서 메타 학습은 일반적으로 빠른(fast) 및 느린(slow) 시간 척도에서 학습을 의미하는 것으로 간주됩니다. 느리게 변화하는 매개 변수는 갑작스런 데이터의 변화에 반응하여 빠른 적응을 준비하고 제어합니다. 특히, 우리는
메타-학습 개념 중 하나인 MAML (Finn et al., 2017)은 새로운 작업에 대한 빠른 적응을 가능하게 하는 딥 신경망 초기화를 메타-학습하는 것을 목표로 합니다. 많은 상황에서, 해결책을 출력 레이어만 적응시킬 때 즉, 메타-학습된 깊은 데이터 표현에서 선형 모델을 학습할 때 잘 근사될 수 있음이 보여졌습니다 (Finn et al., 2017; Finn & Levine, 2018; Gordon et al., 2019; Lee et al., 2019; Rusu et al., 2019; Raghu et al., 2020; von Oswald et al., 2021). 제3장에서는 이 프레임워크와 일반적인 Transformer 블록에서 구현된 in-context 학습과의 동등성을 보여줍니다. 즉, self-attention 레이어를 다층 퍼셉트론과 결합할 때입니다.
메타-학습을 고려할 때, Transformer 가중치를 최적화하는 것을 두 가지 시간 척도에서의 학습으로 간주할 수 있음을 보여줍니다. 더 구체적으로는, 올바르게 예측하기 위한 압력만으로 Transformer가 전방 계산 내에서 학습 알고리즘을 발견하고, 효과적으로 학습 알고리즘을 메타-학습합니다. 최근에는 Transformer와 같은 학습된 신경망 내의 급격한 최적화기 개념을 "메사-최적화"라고 부르고 있습니다 (Hubinger et al., 2019). 우리는 이 개념의 하나의 가능한 실현을 찾아 설명하고, 언어 모델의 in-context 학습 능력이 여기서 논의하는 메커니즘과 유사하게 발생한다고 가정합니다.
Transformer는 다양한 "형태와 크기"로 제공되며, 크게 다른 도메인에서 작동하며, in-context 학습의 상태 전이의 다양한 형태를 나타냅니다 (Kirsch et al., 2022; Chan et al., 2022a). 이는 기본 학습 메커니즘의 변화와 상당한 복잡성을 시사하며, 결과적으로 우리는 선형 self-attention-only Transformer에 대한 우리의 발견이 복잡한 프로세스의 한 부분만을 설명할 것으로 예상합니다. 이는 in-context 학습을 일으키는 여러 가능한 방법 중 하나에 불과할 수 있습니다. 그럼에도 불구하고, 우리의 접근법은 기존의 연상 메모리 (Ramsauer et al., 2020)나 induction head로 불리는 복사 메커니즘과는 다르게, in-context 학습 메커니즘에 대한 흥미로운 관점과 새로운 증거를 제공합니다. 따라서 다음과 같이 선언합니다.
가설 1 (Transformer는 기울기 하강으로 in-context를 학습함). Transformer를 자동 회귀 작업에 대해 훈련할 때, Transformer 전방 패스에서의 in-context 학습은 내부의 암묵적인 자동 회귀 손실을 기반으로 한 기울기 기반 최적화에 의해 구현됩니다.
동일한 가설을 조사하는 병렬 연구에 대한 작업을 인정합니다. Aky¨urek et al. (2023)은 MLP를 포함한 Transformer 레이어 체인에 기초한 가중치 구성을 제시하여 가중치 감소와 함께 기울기 하강의 단일 단계를 구현합니다. Garg et al. (2022)의 작업과 유사하게, 그들은 훈련된 Transformer가 기울기 하강에 의해 얻은 모델의 성능과 일치함을 보여줍니다. 그러나 최적화가 Transformer 가중치를 그들의 구성과 일치하도록 찾는지 여부는 명확하지 않습니다.
여기서 우리는 Schlag et al. (2021)에 기초한 훨씬 간단한 구성을 제시하고, 단일 선형 self-attention 레이어만으로 기울기 하강의 한 단계를 구현하는 것을 필요로 합니다. 이를 통해 (1) self-attention-only Transformer를 최적화하면 가중치가 우리의 가중치 구성과 일치함을 보여주어 실용적인 중요성을 입증하고, (2) Olsson et al. (2022)에 의해 집중적으로 연구된 얕은 두 층 Transformer에서 in-context 학습을 설명합니다. 따라서 관련 작업은 실제로 Transformer가 in-context 데이터에서 기울기 하강 기반 학습을 구현하는 것으로 보이지만, 우리는 다음에서 이 가설의 메커니스틱 검증을 제시하고, Transformer 전방 패스에서 GD를 구현하는 우리의 구성이 실제로 발견된다는 타당한 증거를 제공할 것입니다.
이 사이 내용은 수식이 너무 많아서 지피티께 부탁드릴 수 없음…
Conclusion
Transformer는 놀라운 컨텍스트 내 학습 행동을 보입니다. 현재로서는, 이러한 학습 특성에 대한 주요 설명으로는 attention, 연관 기억 및 유발 헤드의 복사 메커니즘이 있습니다. 본 논문에서는 Garg et al. (2022) 및 Aky¨urek et al. (2023)과 유사한 가설을 제시하여, Transformer의 컨텍스트 내 학습이 기울기 하강에 의해 주도된다는 것을 주장합니다. 즉, Transformer는 컨텍스트에 기반하여 기울기 하강에 의해 학습하는 것입니다. 메타-학습의 시각에서 바라볼 때, Transformer 가중치의 학습은 외부 루프에 해당하며, 그런 다음 이를 통해 전방향 패스에서 토큰을 기울기 기반 최적화로 변환합니다.
이 가설을 입증하기 위해, 우리는 이미 오류 수정 델타 규칙 (Widrow & Hoff, 1960)을 통해 (빠른-) 내부 루프 학습을 제공하는 선형 self-attention 레이어 변형을 제공한 Schlag et al. (2021)을 바탕으로 합니다. 우리는 그들의 설정과는 다르게, 특히 컨텍스트 내 학습에 중점을 두어 입력 시퀀스의 이웃 요소를 고려하여 데이터셋을 구성합니다. 이 구성은 모델이 복사 레이어를 구현하는 방법으로 실현될 수 있으며, 이는 선형 self-attention 레이어와 대략적인 softmax 레이어만으로 구성되지만 여전히 기울기 하강 기반의 학습 역학을 구현합니다. 따라서 우리는 이러한 표준 아키텍처에서 기울기 하강 기반 학습을 설명할 수 있습니다. 더 나아가, 우리는 단일 self-attention 레이어를 기반으로 이 구성을 확장하고, 더 깊은 K-레이어 Transformer 모델이 원칙적인 K단계의 기울기 하강 학습을 구현하는 방법을 설명합니다. 이는 다시 Schlag et al.과 다르게 벗어나고, 깊은 Transformers가 GD++을 구현한다는 것을 확인합니다.
우리의 기울기 하강 및 GD++ 구성은 특징적인 것이 아닙니다. 단순한 회귀 작업에서 멀티 레이어 self-attention-only Transformer를 훈련시킬 때, 실제로 해당 구성을 찾았음을 강력하게 입증합니다. 이는 적어도 우리의 제한된 문제 설정에서 훈련된 Transformers의 컨텍스트 내 학습과 관련된 GD와 유사성을 설명할 수 있게 합니다. 잡음이 있는 데이터와 가중치 정규화를 포함한 회귀 문제를 우리의 가설에 통합하기 위해서는 추가 연구가 필요합니다. 우리는 이러한 설정에서의 학습의 측면이 메타-학습되는 것으로 추측하며, 예를 들어 self-attention 가중치에 인코딩되는 가중치 크기 등입니다. 또한, 우리는 이미 제시된 로지스틱 회귀에 대해 하나의 가능한 가중치 구성을 분석하지 않았습니다.
우리가 개선하기 위해 조사하고 있는 경사 하강을 기반으로 한 컨텍스트 내 학습에 대한 정밀한 이해는 우리가 어떻게 발전시킬지에 대한 여러 가지 연구 방향에 흥미를 불러일으킵니다. 첫째로, 모든 self-attention 레이어에서 단일 단계의 경사 하강을 넘어서기 위해서는 선언적 노드라고 불리는 것을 Transformer 아키텍처에 통합하는 것이 유리할 수 있습니다. 이렇게 하면 하나의 self-attention 레이어를 완전히 최적화된 회귀 손실의 해결책으로 다룰 수 있어 더 효율적인 아키텍처를 가능하게 할 수 있습니다. 둘째로, 우리의 발견은 작은 Transformers와 간단한 회귀 문제로 제한되어 있습니다. Transformers의 더 큰 모델과 컨텍스트 내 학습에 대한 추가적인 기계적 이해가 어떻게 가능한지, 그 범위는 어디까지인지에 대해 더 심층적으로 연구하는 것에 흥미를 느낍니다. 셋째로, Transformer 아키텍처나 그들의 훈련 프로토콜에 대한 특정 수정 사항에 흥미를 느끼며, 이를 통해 개선된 경사 하강 기반 학습 알고리즘을 이끌거나 대체 컨텍스트 내 학습을 Transformer 가중치 내에서 구현할 수 있게 하는 것으로, 예를 들어 Dai et al. (2023)에서와 같이 기능을 확장할 수 있습니다. 마지막으로, HyperTransformers (Zhmoginov et al., 2022)에서 컨텍스트 내 학습을 분석하는 것이 흥미로울 것입니다. 거기서, Transformers는 데이터 대신 가중치를 변환하며, 여기서는 선형 모델에 대한 제한을 해결할 수 있는 가중치의 깊은 부분에서 경사 계산을 허용할 수 있습니다.