본문 바로가기

X-GEN

앵커 박스(Anchor Box)와 바운딩 박스(Bounding Box)의 차이점으로 보는 객체 탐지 분야


이미지 객체 검출에서의 핵심은 객체를 완벽히 인지하고 탐지하는 것이죠! 그러기 위해서 목적에 맞는 다양한 카메라 및 센서 탑재를 통해 여러 환경에서도 다양한 물체를 인지하는 것이 중요합니다. 이때 다양한 2D 및 3D 환경에서 📸완벽하게 캡처! 하듯 이미지를 인식할 수 있는 프레임은 무엇일까요? 객체 감지 모델에서 다양한 크기와 비율을 탐색하고, 정확한 위치를 예측할 수 있는 '앵커 박스'와 '바운딩박스'에 대해 소개하는 시간을 가져보겠습니다 :)

 

boundingbox-인물탐지-객체탐지-바운딩박스-앵커박스-anchorbox
이미지 출처: 슈퍼브 블로그 AI

 

들어가기 전에, Object Detection 객체 탐지에서 박스의 역할은 무엇인가요?

1️⃣위치 표시: 박스는 이미지 내의 객체가 위치한 좌표를 표시해요. 모델이 특정 객체가 어떤 위치에 있는지 이해하도록 도와줘요.

 

2️⃣크기 및 비율 제공 및 탐지: 박스는 객체의 크기와 비율을 나타내는데요. 이는 객체 탐지 모델이 실제 객체의 크기와 형태를 올바르게 이해하고 예측할 수 있도록 해요. 그 뒤 다양한 크기와 비율의 객체를 효과적으로 탐지할 수 있도록 도와줘요.

 

3️⃣클래스 라벨링: 각 박스는 특정 클래스에 속하는 객체를 나타내요. 예를 들어 고양이, 개, 차 등과 같이 객체의 종류를 분류하여 올바른 라벨을 부여하는 데 사용돼요.

 

4️⃣모델 학습: 객체 탐지 모델은 주어진 박스를 기반으로 학습해요. 즉, 클래스를 예측하고 박스의 정확성을 향상시키기 위해 손실 함수를 최소화하는 과정을 거치게 되죠.

 

5️⃣경계 상자 일반화: 모델이 다른 이미지에서도 박스를 잘 예측할 수 있도록 일반화하여, 훈련 데이터와 비슷한 패턴을 학습하게 돼요.

 

✔️ 앵커 박스(Anchor Box)란?

boundingbox-인물탐지-객체탐지-바운딩박스-앵커박스-anchorbox
이미지 출처: 위키 독스

앵커 박스(Ancor Box)는 특정 비율과 크기를 가진 미리 정의된 바운딩 박스의 집합이에요. 주로 YOLO(You Only Look Once)나 SSD(Single Shot MultiBox Detector)와 같은 객체 탐지 네트워크에서 사용돼요.

 

앵커 박스는 네트워크가 다양한 크기와 비율을 가진 객체를 탐지할 수 있도록 도와줘요. 앵커 박스의 크기와 비율을 조정함으로써 모델은 이미지에서 더욱 다양한 객체에 대해 예측하게 돼요. 각 앵커 박스는 이미지의 특정 위치에 배치되면, 네트워크는 각 앵커 박스에 대해 객체가 존재하는지 여부를 예측해요. 앵커 박스는 여러 객체가 동일한 위치에 있을 때 유용해요.

 

Ancor Based 접근법을 사용하는 객체 탐지 모델
✔️ Faster R-CNN
Region proposal Network(RPN)을 사용하여 앵커 박스 기반의 영역 제안을 생성하고, 그 제안들을 분류 및 회귀를 통해 세부적으로 조정
✔️ YOLO (You Only Look Once)
그리드 기반의 앵커 박스를 사용하여 이미지 전체를 한 번만 보고 여러 객체를 탐지
✔️ SSD(Single Shot MultiBox Detector)
여러 스케일에서 앵커 박스를 사용하여 한 번의 여러 객체를 탐지

 

✔️ 바운딩 박스(Bounding Box)란?

boundingbox-인물탐지-객체탐지-바운딩박스-앵커박스-anchorbox
이미지 출처: KDnuggets

바운딩 박스(Bounding Box)는 이미지 내에서 특정 객체의 위치와 크기를 외곽선 형태로 정의하는 사각형 영역이에요. AI가 이미지나 영상을 분석할 때, Bounding Box는 객체를 인식하고 정확하게 분류하는 데 필수적인 도구에요. 특히, 자율주행, 스마트 팩토리, 의료 영상 분석 등 다양한 분야에서 그 중요성이 부각되고 있는데요. 산업 내에서 핵심 객체를 인식하고 분류하여, 돌발 상황에 도출되지 않도록 예측할 수 있는 역할을 해줘요.

 

객체 탐지에 있어서 Bounding Box 알고리즘은 모델이 예측한 바운딩 박스와 실제 바운딩 박스 간의 차이를 계산하여 모델을 평가하는 데 사용되며, Intersection over Union(IoU)와 같은 지표를 통해 유사성을 측정해요.

 

앵커 박스와 바운딩 박스의 차이점?

 
boundingbox-인물탐지-객체탐지-바운딩박스-앵커박스-anchorbox
이미지 출처: 위키독스 (왼:앵커 박스 / 오: 바운딩박스)

두 박스는 모두 객체 탐지 분야에서 특정 객체를 탐지할 수 있다는 큰 공통점을 가지고 있는데요. 하지만 두 박스는 엄연히 다른 역할을 가지고 있습니다. 아래에서 조금 더 자세한 앵커 박스와 바운딩 박스의 차이를 알려드릴게요!

 

우선 앵커 박스(Anchor Box)는 Object Detection 모델에서 다양한 크기와 비율의 잠재 바운딩 박스(Bounding Box)를 제안하는 사전 정의 프레임이라 볼 수 있어요. 모델 예측 단계에서 사용할 기준이 되는 박스를 제공하는 것이며, 여러 개의 앵커 박스 중 최적의 것을 선택해 바운딩 박스로 변환하게 돼요. 👍

 

앵커 박스는 탐색 과정에서 임시로 사용되는 프레임으로 객체의 위치를 예측하는 데 중요한 역할을 한다면, 바운딩 박스는 객체를 정확하게 둘러싸는 최종 프레임이에요!

 

결론적으로 앵커 박스는 객체 탐지의 기초적인 구성 요소로, 다양한 크기와 비율의 객체를 탐지하기 위해 사용되는 반면, 바운딩 박스는 최종적으로 객체의 위치를 나타내는 결과물이에요. 이 두 개념은 서로 보완적이며, 효과적인 객체 탐지 모델을 구축하는 데 필수적이라고 할 수 있습니다!

 

" XGEN 솔루션에서의 Bounding Box "

 
boundingbox-인물탐지-객체탐지-바운딩박스

앞서 살펴보신 내용과 같이, Bounding Box는 자율주행차를 비롯해 다양한 산업에서 객체 탐지에 도움이 되고 있는 기술이에요. 다양한 상황에서 물체의 위치와 크기를 정의하여, 인식 작업을 쉽게 이루어질 수 있게 만들고, 이를 바탕으로 경로 이동이나 충돌 여부 판단 등 전체 환경을 읽을 수 있는 능력을 가지게 되죠.

 

현재 물류, 보안, 헬스케어 등 많은 산업에서는 예측하지 못한 상황을 대비하기 위해 가상 환경으로 시뮬레이션하고 있어요. 해당 케이스에서 씨이랩의 XGEN 솔루션은 큰 도움을 줄 수 있는데요. XGEN은 다양한 환경과 시나리오를 시뮬레이션하여 현실에서 수집하기 어려운 고품질 데이터를 무제한으로 생성할 수 있으며, 이 과정에서 Bounding Box는 객체를 정확하게 인식하고 분류하는 데 중요한 역할을 하고 있어요.

 

1. 자동 라벨링 기능: XGEN은 생성된 이미지 및 3D 데이터에서 객체의 위치와 크기를 자동으로 라벨링 해요. 이 과정에서 2D와 3D Bounding Box가 모두 활용되어 데이터 셋의 품질을 극대화할 수 있어요!

 

2. 다양한 포맷 지원: YOLO, Pascal, COCO와 같은 다양한 데이터 셋 포맷을 지원하여 사용자가 원하는 형태로 Bounding Box 데이터를 제공합니다. 이는 다양한 AI 프로젝트에서 XGEN 솔루션을 효과적으로 활용할 수 있게 도와줘요.

 

3. 고품질 합성 데이터 생성: 그리고 Bounding Box를 포함한 고품질 합성 데이터를 생성하여 AI 모델의 학습을 도와줘요. 특히 3D Bounding Box는 자율주행이나 로봇공학과 같은 분야에서 AI 모델이 더욱 정밀하게 학습할 수 있도록 지원합니다 :)

 


Bounding Box와 XGEN의 시너지

 

바운딩 박스(Bounding Box)는 AI 모델이 객체를 인식하고 분류하는 데 필수적인 도구이며, XGEN 솔루션은 이 과정을 자동화하여 데이터 셋 생성의 효율성을 크게 향상시켜줘요. 오늘의 콘텐츠를 통해 XGEN 엑스젠은 2D 및 3D Bounding Box를 활용해 고품질 합성 데이터를 생성함으로써, 미래 산업에서 AI 학습의 혁신을 이끄는 것에 기여하고 있음을 살짝 엿볼 수 있었어요. 다음 콘텐츠에서는 해당 주제에 이어 2D 바운딩 박스와 3D 바운딩 박스의 차이점에 대해 설명해 주는 시간을 가져보겠습니다!