구글이 새로운 비전언어모델(VLM) ‘PaliGemma 2’를 오픈 소스로 공개했습니다. 이 모델은 이미지 속 객체 식별을 넘어 감정, 동작, 장면의 서사까지 분석할 수 있는 고도화된 기능을 제공합니다.
주요 기능과 특징
1. 다양한 기능 지원
이미지 캡션 생성, 텍스트 이해, 객체 감지 및 분할, 시각적 질문 응답(VQA) 등 다양한 작업을 수행할 수 있습니다.
2. 정밀한 이미지 분석
이전 모델보다 더욱 긴 설명과 세밀한 이미지 분석이 가능하며, 448p와 896p 고해상도까지 지원해 활용도를 대폭 확대했습니다.
3. 최적화된 구조
모델 크기는 30억, 100억, 280억 매개변수로 구성되며, 구글의 TPUv5로 학습해 효율성이 높아졌습니다. 일반 PC 환경에서도 효과적으로 실행할 수 있도록 설계되었습니다.
4. 강화된 OCR 및 특수 기능
광학문자인식(OCR)과 표 구조 이해 능력이 강화되었으며, 화학 공식, 음악 악보, 흉부 X-레이 분석에서도 탁월한 성능을 보입니다.
5. 탁월한 성능 기록
텍스트 인식 벤치마크인 ICDAR 15와 토털텍스트 데이터셋에서 F1 점수 75.9를 기록, 기존 최고 성능을 능가했습니다.
활용성과 논란
구글은 PaliGemma 2가 단순한 객체 식별을 넘어 이미지 속 감정과 동작까지 설명할 수 있다고 강조했습니다. 그러나 일부 전문가들은 감정 분석 기술의 한계에 대해 우려를 표했습니다.
마이크 쿡(퀸 메리 대학교 연구원)은 “인간 감정은 복잡해 기계가 정확히 분석하기 어렵다”고 지적했습니다.
쉽게 교체 가능한 ‘드롭인 대체’
PaliGemma 2는 기존 모델을 간단히 교체할 수 있는 **‘드롭인 대체’**로 설계되었습니다. 추가 코드 수정 없이 성능을 즉시 향상시킬 수 있으며, 특정 작업에 맞게 미세 조정도 간편하게 가능합니다.
다운로드와 접근
PaliGemma 2는 현재 허깅페이스와 캐글에서 사전 학습 모델과 코드를 다운로드할 수 있습니다.
결론: PaliGemma 2는 강력한 이미지 분석 기능과 다양한 활용 가능성을 제공하며, 여러 작업에서 성능을 크게 향상시킬 것으로 기대됩니다.