HomeAboutMeBlogGuest
© 2025 Sejin Cha. All rights reserved.
Built with Next.js, deployed on Vercel
장지원 페이지/
📝
AI Advanced
/
[AP]: Average Precision

[AP]: Average Precision

파일과 미디어
간단한 설명
세그멘테이션의 정확도를 측정하는 메트릭
태그
metric
TISTORYTISTORY[AI/ML] Precision, Recall, AP (Average Precision) 간단 설명 | 객체 검출 성능 지표
[AI/ML] Precision, Recall, AP (Average Precision) 간단 설명 | 객체 검출 성능 지표

[AI/ML] Precision, Recall, AP (Average Precision) 간단 설명 | 객체 검출 성능 지표

Object Detection(객체 검출) 모델의 성능을 측정하기 위해서는 Precision(정밀도), Recall(재현율), 그리고 Average Precision(AP)를 꼭 알아야 한다. ML를 공부하다 보면 한 번 이상은 공부하는 개념인데, 늘 헷갈리는 부분이 있기에 정리해 두려 한다.  객체 검출과 작업에서는 Precision, Recall 등의 개념이 중요한데, 그 이유는 객체 검출 성능이 좋지않을 때 오검출을 많이 했을 수도 있고, 검출 자체가 잘 안됐을 수도(미검출) 있기 때문이다. 이게 왜 중요할까? 객체 검출 작업에 따라 오검출이 치명적인 경우도 있고, 미검출이 치명적인 경우도 있기 때문이다. 다른 설명들을 보면 True positive, False positive,... 등의 복잡한 ..

TISTORYTISTORY
 
현재 Instance Segmentation 모델의 정확도는 데이터셋과 모델 구조에 따라 다르지만, 최신 모델들은 대략 다음과 같은 수준의 성능을 보이고 있습니다.
COCO 데이터셋 기준:
  • Mask R-CNN: bbox AP 39.8%, mask AP 35.4% (2017년)
  • Cascade Mask R-CNN: bbox AP 46.9%, mask AP 40.7% (2019년)
  • HTC (Hybrid Task Cascade): bbox AP 50.7%, mask AP 43.9% (2019년)
  • DetectoRS: bbox AP 55.7%, mask AP 48.5% (2021년)
Instance Segmentation 모델의 평가 지표로는 주로 AP(Average Precision)가 사용됩니다. 이는 클래스 분류와 바운딩 박스 예측의 정확도를 모두 고려한 지표입니다.
구체적인 평가 방법은 다음과 같습니다:
  1. 클래스 분류 정확도 평가
  • 각 객체별로 예측된 클래스와 실제 클래스(ground truth)가 일치하는지 평가
  • 일치할 경우 True Positive(TP), 불일치할 경우 False Positive(FP)로 계산
  1. 바운딩 박스 IoU(Intersection over Union) 계산
  • 예측된 바운딩 박스와 실제 박스 사이의 IoU를 계산
  • IoU가 특정 임계값(보통 0.5) 이상이면 정답으로 간주
  1. 마스크 IoU 계산
  • 예측된 마스크 영역과 실제 마스크 영역 간의 IoU 계산
  • 마스크 IoU 역시 특정 임계값 이상이면 정답으로 간주
  1. 클래스별 AP 계산
  • 각 클래스별로 Precision-Recall 곡선을 그려 AP 계산
  • 이때 클래스 분류, 박스 IoU, 마스크 IoU를 모두 고려해 TP/FP 결정
  1. 전체 클래스에 대해 평균 AP (mAP) 계산
  • 모든 클래스의 AP 평균 내어 mAP 도출
이처럼 Instance Segmentation은 분류, 검출, 분할이라는 복합적인 태스크의 성능을 종합적으로 평가하게 됩니다. 높은 정확도를 달성하기 위해서는 각 단계별 예측의 정확성이 모두 뛰어나야 합니다. 최근에는 모델 구조 개선, 데이터 증강 등 다양한 방법으로 Instance Segmentation 성능을 높이기 위한 연구가 활발히 진행되고 있습니다.
 

 
AP(Average Precision)는 객체 검출이나 Instance Segmentation과 같은 태스크의 성능을 평가할 때 주로 사용되는 지표입니다. AP는 Precision과 Recall 값의 조화평균으로, 모델이 예측한 결과의 정확성과 완전성을 동시에 고려합니다.
먼저 Precision과 Recall의 개념을 알아보겠습니다:
  • Precision: 모델이 검출한 객체 중 실제로 정답인 객체의 비율
    • Precision = TP / (TP + FP)
    • TP: True Positive, 모델이 올바르게 검출한 객체 수
    • FP: False Positive, 모델이 잘못 검출한 객체 수
  • Recall: 실제 존재하는 객체 중 모델이 검출한 객체의 비율
    • Recall = TP / (TP + FN)
    • FN: False Negative, 모델이 검출하지 못한 객체 수
AP를 계산하는 과정은 다음과 같습니다:
  1. 모델의 예측 결과를 Confidence Score에 따라 내림차순으로 정렬
  1. Confidence Score의 임계값을 0부터 1까지 변화시키며 Precision-Recall 곡선 그리기
      • 임계값을 높일수록 Precision은 증가하고 Recall은 감소
  1. Precision-Recall 곡선 아래의 면적을 계산하여 AP 도출
      • 면적이 클수록 모델의 성능이 우수함을 의미
여기서 주의할 점은 AP를 계산할 때 주로 'IoU 임계값'을 사용한다는 것입니다. 예를 들어 COCO 데이터셋에서는 IoU 임계값으로 0.5를 사용하는데, 이는 모델이 예측한 바운딩 박스와 실제 바운딩 박스의 IoU가 0.5 이상일 때만 TP로 간주한다는 뜻입니다.
또한 Instance Segmentation의 경우에는 각 객체별 마스크의 IoU도 함께 고려하여 TP/FP를 결정합니다. 이렇게 도출한 클래스별 AP를 모두 평균 내어 mAP(mean Average Precision)를 계산하게 됩니다.
mAP는 전체 클래스에 대한 모델의 평균적인 성능을 나타내므로, Instance Segmentation 모델을 비교할 때 가장 대표적으로 사용되는 지표입니다. 최근에는 다양한 IoU 임계값(0.5~0.95)에서의 mAP를 평균내어 모델의 종합적인 성능을 평가하기도 합니다.