BitFit(Bias Term Fine-Tuning)
모든 parameter를 업데이트 하는 대신 bias parameter만 조정하여 성능 개선(약 0.08~0.09%만 학습)
> 비교적 저비용, 빠른 학습 가능
Bias parameter

활성화함수에 추가하는 상수값 > 출력값에 영향
: bias, : 가중치, : 입력, : activate function
Image 작업에서는 bias보다 가중치 자체가 더 중요한 역할을 할 수 있기에 성능향상에 큰 영향을 미칠지는 미지수
> 가중치가 이미지의 중요한 특징을 추출하고 패턴을 학습하는 데 직접적으로 관여
→ 애초에 BERT(masked language model)를 효과적으로 fine tuning하기 위해 나온 기법임
Method

- Attention mechanism 활용
decoder에서 출력 단어를 예측하는 매 시점마다 인코더에서의 전체 입력 문장을 다시 한번 확인(예측해야할 단어와 연관 있는 입력 단어 부분을 좀 더 집중해서 봄)
Bifit에서는 Q(Query), K(Key), V(Value) 에 대해서 위와 같은 연산을 수행
각 벡터는 입력 벡터 x를 선형 변환하여 얻어지며, 각각의 변환에는 가중치 행렬과 바이어스 벡터가 사용
⇒ 문맥에 따라 단어의 중요성을 다르게 평가하고, 복잡한 관계를 학습
github.com