sol’s blog

모델 고민(YOLO + CNN + LSTM)

sol-commits
sol-commitsFeb 25, 2025
모델 고민(YOLO + CNN + LSTM)

데이터는

  1. AI HUB 운전자 탑승자 상태 및 이상행동 모니터링
    AI HUB 데이터가 커서 공유하는 과정이 고통이었음.. 🥲
  1. YawDD

를 사용하기로 했다.

모델 고민

팀원들과 모델 구조에 대해서 얘기를 나눴다.

  1. YOLO을 통한 객체 검출
    목적운전자의 얼굴, 손, 휴대폰 등의 객체를 검출하여 각 프레임에서의 객체 위치 정보 획득
    구현사전 학습된 YOLOv4 또는 YOLOv5 모델을 사용하여 객체를 검출
    각 객체의 바운딩 박스 좌표와 클래스 정보 획득
  1. CNN(pretrained)을 통한 특징 추출
    목적YOLO로 검출된 각 객체의 이미지 패치를 입력으로 받아, 해당 패치의 특징 벡터를 추출
    구현사전 학습된 ResNet50 또는 MobileNetV2와 같은 경랴오하된 CNN 모델을 사용하여 각 이미지 패치에서 특징을 추출
    💡
    이미지 패치 - 원본 이미지에서 특정 부분을 잘라낸 작은 영역
    ☑️
    이미지 패치 역할
    • 객체 검출 후 관심 영역(ROI)만 CNN에 입력
      • 바운딩 박스 내 영역만 잘라낸 이미지 = 이미지 패치
      • 검출된 객체만 CNN에 입력하면 불필요한 배경 정보를 줄일 수 있음
    • 객체 기반 특징 추출을 위한 활용
      • “운전 중 핸드폰을 사용하고 있는지”를 판단할 때, 전체 이미지 대신 이미지 패치를 CNN에 입력하면, CNN이 더 정확하게 핸드폰 조작 여부를 학습 가능
  1. LSTM을 통한 시간적 패턴 학습
    목적연속된 프레임에서 추출된 특징 벡터의 시퀀스를 입력으로 받아, 시간적인 패턴을 학습하여 운전자의 상태를 분류
    구현LSTM 또는 Bi-directional LSTM 레이어를 사용하여 시간적 의존성을 모델링하고, 최종적으로 소프트맥스 활성화 함수를 가진 출력 레이어를 통해 네 가지 클래스(전화 사용, 문자 작성, 졸음 운전, 정상 운전)로 분류