HomeAboutMeBlogGuest
© 2025 Sejin Cha. All rights reserved.
Built with Next.js, deployed on Vercel
장지원 페이지/
📕
2024 UGRP
/
Member Page
Member Page
/
[2024 August 11] Bitfit-1

[2024 August 11] Bitfit-1

태그

BitFit(Bias Term Fine-Tuning)

모든 parameter를 업데이트 하는 대신 bias parameter만 조정하여 성능 개선(약 0.08~0.09%만 학습)
> 비교적 저비용, 빠른 학습 가능
 
Bias parameter
notion image
활성화함수에 추가하는 상수값 > 출력값에 영향
: bias, : 가중치, : 입력, : activate function
 
 
Image 작업에서는 bias보다 가중치 자체가 더 중요한 역할을 할 수 있기에 성능향상에 큰 영향을 미칠지는 미지수
> 가중치가 이미지의 중요한 특징을 추출하고 패턴을 학습하는 데 직접적으로 관여
→ 애초에 BERT(masked language model)를 효과적으로 fine tuning하기 위해 나온 기법임
 
Method
notion image
  • Attention mechanism 활용
    • decoder에서 출력 단어를 예측하는 매 시점마다 인코더에서의 전체 입력 문장을 다시 한번 확인(예측해야할 단어와 연관 있는 입력 단어 부분을 좀 더 집중해서 봄)
       
      Bifit에서는 Q(Query), K(Key), V(Value) 에 대해서 위와 같은 연산을 수행
      각 벡터는 입력 벡터 x를 선형 변환하여 얻어지며, 각각의 변환에는 가중치 행렬과 바이어스 벡터가 사용
      ⇒ 문맥에 따라 단어의 중요성을 다르게 평가하고, 복잡한 관계를 학습
 
github.com
github.com

github.com