MacBook에서 Gemma4로 1년치 영상을 로컬 인덱싱

원제: Indexing a year of video locally on a 2021 MacBook with Gemma4-31B (50GB swap)

왜 중요한가

로컬 AI로 대용량 미디어 아카이브를 효율적으로 인덱싱하는 새로운 접근법을 제시하며 콘텐츠 관리 자동화 가능성을 보여준다.

개발자가 2021년 MacBook에서 Google의 Gemma 4 AI 모델(31B)을 이용해 1년분의 영상 데이터를 로컬로 분석하고 인덱싱하는 실험을 진행했다. 50GB 스왑을 활용해 AI가 영상 내용을 픽셀 단위로 분석하여 검색 가능한 메타데이터를 생성했다.

아프리카 마사이마라와 실리콘밸리를 오가며 활동하는 개발자가 대용량 영상 아카이브 관리 문제를 해결하기 위해 로컬 AI 인덱싱 시스템을 구축했다. iPhone, DJI 드론, Nikon Z8, Ray-Ban Meta 등 다양한 기기로 촬영된 영상들이 'IMG_*.mov', 'DJI_*.mp4' 형태의 무명 파일로 누적되어 편집이 불가능한 상황이었다.

초기에는 Eddie AI, Higgsfield MCP 등 SaaS 기반 영상 편집 도구들을 검토했으나 월 140달러 비용과 실제 여행 브랜드에 부적합한 생성형 콘텐츠 문제로 포기했다. 대신 DaVinci Resolve Studio의 IntelliSearch, Smart Bins, Voice to Subtitle 기능과 Claude Code, ElevenLabs를 조합해 월 22달러로 비용을 절감했다.

핵심 발견은 기존 AI 영상 편집 도구들이 이미 라벨링된 콘텐츠를 전제로 한다는 점이었다. '황금시간대 언덕 위 코끼리' 같은 시각적 내용을 찾으려면 실제 픽셀을 분석하는 인덱싱이 선행되어야 한다. 이를 위해 Gemma 4 모델을 MacBook에서 로컬 실행하여 영상의 시각적 내용을 분석하고 검색 가능한 메타데이터를 생성하는 시스템을 구축했다.

출처

blog.simbastack.com — 원문 읽기 →