Portfolio

모든 parameter를 업데이트 하는 대신 bias parameter만 조정하여 성능 개선(약 0.08~0.09%만 학습)

> 비교적 저비용, 빠른 학습 가능

활성화함수에 추가하는 상수값 > 출력값에 영향

: bias, : 가중치, : 입력, : activate function

Image 작업에서는 bias보다 가중치 자체가 더 중요한 역할을 할 수 있기에 성능향상에 큰 영향을 미칠지는 미지수

> 가중치가 이미지의 중요한 특징을 추출하고 패턴을 학습하는 데 직접적으로 관여

→ 애초에 BERT(masked language model)를 효과적으로 fine tuning하기 위해 나온 기법임

[2024 August 11] Bitfit-1