


https://paperswithcode.com/dataset/lasot
1. LaSOT를 학습에 사용하는 목적
LaSOT는 객체 추적 분야에서 널리 사용되는 벤치마크 데이터셋입니다. SAMURAI가 이 데이터셋을 학습하거나 평가에 사용하는 주요 목적은 다음과 같습니다:
1.1 Zero-Shot 추적 성능 평가
- SAMURAI는 특정 객체를 학습하지 않고도, 첫 프레임의 바운딩 박스를 기준으로 객체를 추적하는 모델입니다.
- LaSOT는 다양한 객체와 복잡한 상황(가림, 이동 속도 변화 등)을 포함하므로, SAMURAI가 이러한 상황에서 얼마나 잘 추적할 수 있는지를 평가하는 데 적합합니다.
- LaSOT의 역할: 모델의 성능을 측정하기 위한 테스트 데이터셋.
1.2 시간적 연속성 및 추적 알고리즘 개선
- LaSOT 데이터셋의 프레임 간 객체 움직임 데이터를 활용하여 모델이 시간적 연속성(temporal consistency)을 더 잘 이해하도록 설계할 수 있습니다.
- SAMURAI는 이동 패턴과 객체 외형의 변화를 일반화하여 학습합니다. 이 학습은 특정 객체를 기억하려는 것이 아니라, 프레임 간 객체의 이동과 변화를 추적하는 방법을 학습합니다.
2. 첫 프레임에서 바운딩 박스를 선택하는 방식
- LaSOT 데이터셋에서는 groundtruth.txt에 첫 프레임의 바운딩 박스가 포함되어 있으므로, SAMURAI는 실험에서 이 정보를 사용하여 추적을 시작합니다.
- 실제 응용에서는 사용자가 직접 선택한 바운딩 박스나 다른 모델이 자동으로 생성한 바운딩 박스를 입력으로 사용합니다.
3. LaSOT로 모델을 학습한 이유
LaSOT 데이터셋은 다양한 객체와 복잡한 추적 상황을 포함하기 때문에, SAMURAI와 같은 모델을 학습하거나 평가하기에 적합합니다. LaSOT를 사용한 학습 목적은 다음과 같습니다:
3.1 시간적 연속성 학습
- 모델은 LaSOT에서 프레임 간의 **객체 움직임, 외형 변화, 그리고 가림(occlusion)**과 같은 상황을 학습합니다.
- 이 과정에서 모델은 “주어진 바운딩 박스 안의 객체를 추적하는 일반적인 방법”을 학습합니다.
3.2 Zero-Shot 성능 강화
- SAMURAI는 특정 객체를 학습하는 것이 아니라, 객체 간의 일반적인 움직임 패턴과 프레임 간 상관관계를 학습합니다.
- LaSOT는 다양한 객체와 복잡한 시나리오를 포함하므로, 이러한 상황을 일반화하는 데 도움을 줍니다.
3.3 벤치마크 역할
- LaSOT는 모델 성능을 비교 평가할 수 있는 데이터셋으로도 활용됩니다.
- SAMURAI가 LaSOT에서 높은 추적 성능을 보이면, 이는 다양한 상황에서도 강력한 Zero-Shot 추적 모델임을 입증합니다.
4. SAMURAI는 학습된 객체를 추적하지 않는다
- SAMURAI는 특정 객체(예: 자동차, 사람 등)를 학습하지 않습니다.
- LaSOT는 SAMURAI가 “프레임 간의 연속적인 객체 추적” 능력을 학습하거나 평가하기 위해 사용됩니다.
- 실질적으로, SAMURAI는 첫 프레임의 바운딩 박스를 기준으로 동작하며, 특정 객체를 인식하거나 구분하지 않습니다.
5. 결론
LaSOT를 사용하는 이유는 첫 프레임에서 추적할 객체를 찾는 것이 아니라:
- 프레임 간의 객체 이동을 추적하는 방법을 학습하거나 평가하기 위해.
- Zero-Shot 성능을 강화하고, 다양한 상황에서의 추적 성능을 테스트하기 위해.
- 객체가 아닌, 추적 과정을 일반화할 수 있도록 도움을 주기 위해.
LaSOT는 SAMURAI와 같은 모델이 범용적인 객체 추적 능력을 갖출 수 있도록 돕는 도구로 사용됩니다.
폴더 및 파일 설명
1. testing_set (테스트 비디오 목록 경로)
- 내용: 테스트에 사용할 비디오 파일명을 나열한 텍스트 파일(testing_set.txt).
- 역할:
- 추적할 비디오를 지정하는 데 사용됩니다.
- 예: airplane-1, person-10, squirrel-8 등이 포함.
2. checkpoint (모델 가중치 파일 경로)
- 내용: 사전 학습된 SAMURAI 모델의 가중치 파일(.pt).
- 역할:
- 추적 모델을 초기화하는 데 사용됩니다.
- 경로 예: sam2/checkpoints/sam2.1_hiera_base_plus.pt.
3. model_cfg (모델 설정 파일 경로)
- 내용: 모델의 구조 및 설정을 정의하는 YAML 파일.
- 역할:
- SAMURAI 모델의 구성을 정의합니다.
- 경로 예: configs/samurai/sam2.1_hiera_b+.yaml.
4. video_folder (비디오 데이터셋 디렉토리)
- 내용: LaSOT 데이터셋의 프레임 폴더 구조.
- 역할:
- 비디오 프레임 데이터를 제공하는 원본 경로.
- 경로 예:data/LaSOT/
- ├── airplane/ │
- ├── airplane-1/ │ │
- ├── img/ │ │ │
- ├── 00000001.jpg │ │ │
- ├── 00000002.jpg │ │ │
- ├── …
5. pred_folder (결과 예측값 저장 디렉토리)
- 내용: 각 비디오의 추적 결과를 저장한 텍스트 파일.
- 역할:
- 추적된 바운딩 박스를 텍스트 형식으로 저장합니다.
- 파일 내용 예:120,150,80,100 125,155,80,100 130,160,80,100
- 경로 예:results/samurai/samurai_base_plus/airplane-1.txt
6. vis_folder (결과 비디오 시각화 디렉토리)
- 내용: 추적된 결과를 오버레이한 비디오 파일(.mp4).
- 역할:
- 객체 추적 결과를 프레임 위에 시각화하여 저장합니다.
- 예: 추적된 객체의 바운딩 박스와 마스크를 오버레이.
- 경로 예:visualization/samurai/base_plus/airplane-1.mp4
결론
- 추적 결과 시각화: vis_folder에 저장된 .mp4 파일은 추적된 객체를 프레임 위에 그려 보여줍니다.
- 추적 데이터 저장: pred_folder에 저장된 .txt 파일은 각 프레임에서의 바운딩 박스를 숫자로 저장합니다.
- 각 디렉토리는 모델 학습, 평가, 시각화를 위한 목적에 맞게 잘 구성되어 있습니다.
이 구조는 추적 과정을 명확히 분리해 주며, 결과 확인과 분석을 쉽게 만듭니다.