2025 Computer Vision 분야 트렌드, 동향 분석하기
인공지능 main stream 분야 COMPUTER VISION 분야의 2025년 동향을 파악하기 CVPR 2024를 분석하여 블로그를 작성한다.
https://public.tableau.com/app/profile/joshpreston/viz/CVPR2024/CVPRtrends
CVPR 2024
CVPR 2024
public.tableau.com
다음 링크는 The IEEE/CVF Conference on CVPR(Computer Vision and Pattern Recognition) 2024 이라는 vision 분야의 Top tier 학회에 accept 되었던 논문을 시각화, 정리해놓은 Tableau Public 이다.
Top 100을 활용하여 동향 및 트렌드를 분석해보겠다. 블로그와 Tableau Public 을 함께 보는것을 추천한다.
우선 위의 그림처럼 CVPR와 같은 대형 학회에서 논문은 일반적으로 Oral, Highlight(Spotlight), Poster 세 가지로 분류하여 발표된다.
• Oral: 가장 경쟁률이 높은 발표 형식으로, 학계의 주목도가 큰 연구가 보통 선정된다.
• Highlight(Spotlight): Oral에 비해 발표 시간은 짧지만, 중요한 연구로 간주되어 별도의 간략 발표 세션이 제공된다.
• Poster: 연구자가 준비한 포스터 앞에서 1:1로 질의응답을 수행하며, 가장 보편적인 발표 형태이다.
본 블로그에서 다룬 상위 100편 논문 중 Oral과 Highlight로 선정된 연구들은 상대적으로 혁신적 접근 또는 실용화 가능성이 높다고 평가받는 경우가 많을 것으로 추정.
전체 트렌드 개요
CVPR 2024에서 발표될 상위 100편의 논문은 대부분 Diffusion 모델을 중핵으로 활용하고 있으며, 특히 텍스트-이미지/비디오 생성과 3D·멀티뷰로의 확장을 공통된 흐름으로 보여주고 있다. 또한 연구자들이 제안하는 기법들은 주로 생성 품질의 향상, 편집 기능의 세분화, 추론 및 학습 효율성 개선을 중심으로 진행되고 있다.
주요 연구 방향별 분석
텍스트 기반 생성 및 편집
• 세분화된 명령어(Instruction) 이해: 단순히 키워드를 입력받아 이미지를 생성하는 방식을 넘어, 구체적이고 복합적인 텍스트 지시를 실행하는 모델들이 다수 등장하고 있다.
• 정교한 편집(Editing) 기능: Diffusion 모델의 잠재 공간을 조정하거나, 특정 부분만 국소적으로 수정하는 ‘ControlNet’계열 연구들이 인기를 끌고 있다. “DiffEditor,” “SmartEdit,” “DiffMorpher” 등의 제목이 이를 뒷받침하고 있다.
• 텍스트-비디오 변환: 기존의 텍스트-이미지 생성보다 난이도가 높은 텍스트-비디오 생성에도 Diffusion 기술이 적극 활용되고 있으며, “FlowVid,” “Animate Anyone,” “Snap Video” 등이 대표적인 예로 확인된다.
3D·멀티뷰 생성 및 합성
• 3D 환경 인식 강화: 2D 이미지 생성만으로는 한계가 명확하기에, 심층(Depth) 정보나 멀티뷰 데이터를 고려하는 연구가 부각되고 있다.
• 360도 파노라마 및 공간 일관성 유지: “Taming Stable Diffusion for Text to 360°,” “Align Your Gaussians” 등은 장면 전체를 일관된 시점으로 생성하기 위한 방법을 다룬다.
• 비디오의 시공간적 일관성: 3D 장면의 움직임이나 카메라 이동 등을 자연스럽게 표현하기 위해, 프레임 간 장면 구조를 유지하는 새로운 Diffusion 접근법들이 다수 제안되고 있다.
모델 효율성 및 최적화
• 추론 속도 개선: Diffusion 모델 특유의 다단계 샘플링 과정으로 인한 생성 속도 문제를 해결하고자, “Clockwork Diffusion,” “TFMQ-DM,” “Cache Me if You Can” 등에서 단계 축소 또는 메모리 관리 최적화를 시도하고 있다.
• 경량화 및 파라미터 감소: 대규모 모델이 요구하는 자원을 줄이기 위해, Distillation 기법이나 파이프라인 개선 방식을 도입하는 논문이 등장하고 있다.
• 학습 안정성 향상: 샘플링 노이즈나 무작위성으로 인한 성능 저하를 줄이기 위해, 학습 단계에서 추가적인 정규화나 스케줄링 방식을 적용하는 연구도 관찰된다.
편향성 제거 및 품질 평가
• Debiasing: “Balancing Act,” “Distribution-Guided Debiasing” 등에서는 Diffusion 모델이 특정 데이터셋 편향을 학습할 가능성을 최소화하기 위한 전략을 제시하고 있다.
• 새로운 평가 지표: “Rethinking FID,” “Beyond First-Order Tweedie” 등은 기존 FID나 IS 지표로는 잡아내기 어려운 생성물 특성을 보다 정확히 평가하기 위한 방안을 모색한다.
• 이해가능성(Explainability): 일부 논문에서는 생성 과정에서 어떤 부분이 모델의 의사결정에 크게 기여했는지 파악할 수 있도록, 해석 가능성을 높이는 기법을 함께 제안하고 있다.
대규모 데이터·LLM 융합
• LLM(대규모 언어 모델)과 결합: 텍스트 이해력이 우수한 언어 모델과의 결합으로, 이미지·비디오 생성시 프롬프트의 맥락적 이해나 추론 능력이 확대되는 경향이 감지된다.
• 고품질 데이터셋 의존: 학습 자료가 대규모·고품질일수록 Diffusion 모델이 복잡한 장면을 더 사실적으로 생성할 수 있기에, 데이터셋 구성 및 전처리에 대한 논의가 활발히 진행되고 있다.
CVPR 2024 논문 통계 및 트렌드 파악
CVPR 2024에서 발표된 논문 통계를 살펴보면, 가장 많은 수를 차지하는 주제는 단연 image and video generation 분야이다. 329편이라는 큰 숫자가 말해주듯, 최근 딥러닝 발전과 함께 Diffusion model이나 GAN을 활용한 다양한 연구가 빠르게 늘어나고 있다. 이 분야는 텍스트 프롬프트를 바탕으로 이미지를 생성하는 text-to-image, 동영상을 생성하는 text-to-video, 그리고 초고해상도 super resolution이나 정밀 편집까지 범위가 매우 넓다는 점이 특징이다.
두 번째로 많은 276편은 다양한 센서나 멀티뷰를 활용해 3D reconstruction을 수행하는 연구이다. 다중 시점 영상이나 LiDAR, RGB-D 등 여러 센서 데이터를 결합하여 정확한 3D 정보를 추출하려는 시도가 늘어나고 있다. 이는 자율주행, 로보틱스, 증강현실과 같은 분야에 필수적인 기반 기술로 주목받고 있으며, 고정밀도와 실시간 처리가 요구되는 산업 영역과도 밀접하게 연결되어 있다.
그 뒤를 이어 202편이 인간의 얼굴, 신체, 포즈, 제스처 등을 다루는 human-centric vision 분야를 포함한다. 사람의 동작을 추적하거나 표정을 인식하는 기술은 의료, 스포츠, 엔터테인먼트 등 다양한 영역에서 중요한 역할을 수행한다. 특히 HCI(Human-Computer Interaction)와 결합되면서 사용자 맞춤형 서비스나 새로운 인터랙션 방식을 제공하는 데 기여하고 있다.
한편, 152편으로 집계된 vision-language reasoning 분야는 대규모 LLM(Large Language Model)과의 결합을 통해 시각적 콘텐츠를 더욱 풍부하게 이해하거나 생성하려는 흐름이 감지된다. 텍스트를 기반으로 이미지를 편집하는 text-guided editing, 시각 정보를 언어 형태로 설명하는 이미지 캡셔닝, 그리고 VQA(Visual Question Answering) 등 다방면에서 멀티모달 학습 기법이 적용되고 있다. 이러한 연구는 보다 지능적이고 유연한 AI 시스템을 구현할 수 있는 가능성을 열어주고 있다.
이 외에도 기본적인 영상 처리나 denoising, 복원, 컬러 변환 등의 low-level vision 분야(131편)와, 객체 인식이나 분류, 검색 등을 다루는 recognition 분야(127편)가 뒤를 잇는다. 전이학습, 메타학습, 적은 양의 데이터로 학습하는 방식 등을 다루는 few-shot learning이나 long-tail learning 분야(123편)도 주목할 만하다. 멀티모달 데이터를 결합하는 multi-modal 분야(110편), 이미지 세분화나 형상 분석 등을 다루는 segmentation 분야(107편), 단일 이미지에서 3D 구조를 추정하는 single-image 3D reconstruction 분야(106편) 역시 중요한 영역으로 자리 잡고 있다.
결과적으로 볼 때, 이번 CVPR 2024에서는 image and video generation과 3D 분야가 특히 부상하고 있다고 할 수 있다. 여기에 인간의 다양한 동작이나 표정을 정확히 파악하는 human-centric vision과 vision-language reasoning이 결합하여, 보다 다채롭고 지능적인 멀티모달 AI 연구가 활발해지고 있다. 이는 컴퓨터비전이 점차 실시간·고정밀 처리를 요구하며, 인간과 상호작용하는 형태로 진화하고 있음을 보여준다.
향후에는 이러한 흐름이 더욱 가속화되어 XR, 자율주행, 로보틱스 등 복합적 분야와의 융합 연구가 증대될 것으로 전망한다.