포스트

[KCCV] KCCV 2024 후기

KCCV2024 참여

Desktop View

연구실에서 기회가 생겨서 한국 컴퓨터비전 학술대회인 KCCV 2024에 다녀왔습니다.
올해로 11번째 KCCV이고 장소는 BEXCO 에서 8월 12일 ~ 8월 14일까지 진행되었습니다. 작년 2023년 대한 전자공학회 이후로 두 번쨰로 학회에 가게 되었습니다.
23년 3월 말부터 AI와 비전을 공부하기 시작해서 전자공학회에는 아무것도 모른 체 거의 구경하는 신세였지만, 올해는 그래도 천천히 읽으면서 이해할 수 있는 정도는 되었던 것 같습니다.


KCCV2024 진행

사정이 있어서 8월 9일 온라인 세션은 듣지 못하고 8월 12일부터 시작된 Main Conference부터 참가했습니다. 전체적인 구성은 Oral, KeyNote, 점심시간, Oral, Industry, Poster, Doctral Colloquium 으로 진행됩니다.
Oral에서는 국내 교수님들의 약 2년간 ICCV, CVPR 등에 Accept 된 논문들의 발표가 진행되고, KeyNote에서는 현 AI의 추세와 상황에 대한 강연이 있었습니다.
Industry에서는 후원 기업의 대표 분들이 기업 소개, AI 비전 기술들이 현업에서 어떻게 사용되는지 설명해주셨습니다. 시간 상 Doctral Colloquium 까지는 듣지 못했습니다.

제 비전 지식이 얕아서 인지 대부분의 Oral 들이 많이 어려웠고 완벽하게 이해하기는 힘들었습니다. 그래서 저도 모든 것을 이해 하려기 보다 최대한 해당 분야에서는 최근에 어떤 연구가 활발하게 일어나고 있고, 교수님들이 발표하는 논문들이 어떤 아이디어를 사용했는지 등에 초점을 맞춰 들었습니다.
여러 번 발표되거나 언급된 주제를 꼽아보자면 NeRF, Multi-Modal, Diffusion Model 정도가 있었습니다.

Link - KCCV 2024 의 세부 진행 내용들을 볼 수 있습니다.


재밌게 보았던 논문들

제가 이해한 내용이 실제 논문 내용과 틀릴 수 있습니다. 제가 Oral에서 가장 많이 이해했다고 생각한 논문도 아마 50% 도 이해하지 못했을거라고 생각합니다.
그래도 그대로 잊기는 좀 아쉽기도 하고, 제가 나중에 공부해 볼 생각도 있어서 글을 쓰게 되었습니다.

  1. CVPR2024, Exploiting Style Latent Flows for Generalizing Video Deepfake Detection

    AI-Deepfake로 합성된 비디오들을 어떻게 찾아낼 것인지에 대한 논문이었습니다.
    Deepfake로 만들어진 얼굴과 실제 얼굴 feature간에 차이가 있는 점에 기반해 각 feature들을 Triplet Loss를 이용해 Embedding Space에서 학습한다 정도로 이해했습니다.
    논문의 내용은 거의 이해하지 못했지만, 현대 Deepfake 기술이 어느 정도 발전했고, 이를 탐지하는 어떤 알고리즘과 방법 등이 있는지 들어볼 수 있었습니다.

  2. CVPR2024, VMC : One-Shot Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models

    Input 이미지의 어떤 Motion만을 Capture 해서 새로운 Text 에 그 Motion을 적용한다고 이해했습니다.
    예를 들어 Input 이미지가 “날아가는 비둘기” 이고 새로운 Text가 “날아가는 부엉이” 라면 Input 의 Motion을 Text의 부엉이에 자연스럽게 입힌다는 느낌이었습니다.

  3. CVPR 2024, GALA : Generating Animatable Layered Assets from a Single Scan

    가장 재밌게 봤던 논문이었습니다. 어떤 3D Model 과 Object text 가 Input으로 들어오면 해당 Object를 Model에서 분리합니다.
    이 때 Model은 Object가 사라진 부분을 자연스럽게 채워지고, Object는 분리될 뿐만 아니라 새로운 Asset으로 사용될 수 있습니다. 즉, 다른 Model B에 해당 Asset을 착용시킬 수 있습니다.
    Model에서 Object가 사라진 부분은 Diffusion Model이 가장 자연스럽다고 생각하는 방향으로 채워집니다.


후기

생각했던 것보다 더 많은 것을 얻을 수 있었던 KCCV 2024 였습니다.
출발하기 전에는 제가 연구하고 있는 분야에 관련된 논문들이 없었기 때문에 단순히 다른 task의 논문들에 대해 들어보자는 느낌이었습니다. 그래서인지 지루하고, 어렵기만 할 거 같다는 생각이었습니다.
하지만 처음 생각과 다르게 3일 동안의 Oral Session 과 Industry는 흥미로운 내용들이 많았고, 교수님들도 발표를 재밌게 해주셔서인지 더 즐겁게 보았습니다.

힘든 점이 있었다면 사용되는 용어, 내용들이 어느 정도 지식을 가지고 있다는 가정 하에 발표가 진행되기 때문에 아예 모르는 분야에서는 멍해지게 됩니다… 막 AI를 접한 학생들을 위한 학회는 아니기도 하며, 발표되는 논문들은 CVPR이나 ICCV에서 발표된 수준 높은 연구들입니다. 또한 발표 시간도 15분밖에 안되기 때문에 많은 내용이 생략될 수 밖에 없었던 것 같습니다.
저는 학회를 통해 아래와 같은 좋은 경험을 쌓았습니다.

  1. 비전 지식

    전체적인 컴퓨터 비전의 지식이 넓어지는 경험을 했습니다. 제가 몰랐던 task, 최근 트렌드 등을 알게되면서 지식의 폭을 넓히는 계기였습니다.
    비록 이해하지 못한 부분이 많고, 얕은 지식 수준밖에 얻어가지 못했지만 그것만으로도 의미가 있었던 것 같습니다.
    또한 제가 전혀 다른 분야에서 연구를 하고 있지만, 발표되는 논문들에 사용되는 방법들, Diffusion Model 같은 모델들의 새로운 방향성 등을 접하면서 제 연구에 쓸만한 아이디어를 몇 가지 얻게 되었습니다.
    발표하는 논문들이 기존 연구와 어떻게 다른 방향으로 접근해 성능을 올리는지, 기존 연구에서 간과하고 있는 부분들은 무엇인지에 대해 듣는 것이 많은 도움이 되었던 것 같습니다.

  2. Q&A

    발표가 끝난 후 Q&A 시간이 이어집니다. 다른 분들의 질문에서 제가 발표를 보며 당연하게 생각했던 부분들, 이해를 못했던 부분, 저도 의문을 가졌던 부분들에 대한 답변을 들을 수 있었습니다.
    논문을 보다보면 한번 쯤은 이 논문에서는 ‘왜 이 부분이 설명이 없지?’ , ‘이 부분이 어떤 효과가 있기에 추가했지?’ 같은 경험을 하셨을 거라고 생각합니다.
    Q&A는 이런 부분들을 직접 물어보고 논문 저자분들에게 직접 답변을 들을 수 있는 귀중한 기회였습니다.
    예를 들어 제가 위에 언급한 논문 중 3번째 논문에서는 “Object를 분리한 Model의 빈 부분을 학습된 Diffusion Model이 채워진다고 했는데, 신체의 일부가 없는 Model들은 어떻게 되는가?” 였습니다. 이 질문은 제가 전혀 생각 못했던 부분이면서 가장 재밌는 질문이었습니다.

  3. Industry

    KCCV가 컴퓨터 비전 학술대회이지만 후원사에는 삼성전자, 삼성전기 등 비전과 전혀 관련없어 보이는 후원사들이 있습니다.
    이런 회사들이 실제 현업에서 AI비전 기술들을 어떻게 사용하고 있고, 앞으로 어떤 방향으로 확장해 나갈 것인지에 대해 들어볼 수 있었습니다.

  4. 현업과 대학교의 AI 연구에서 직면하는 문제들

    어떻게 보면 실제로 가장 큰 문제는 더 좋은 방법, 좋은 모델을 찾는 것이 아닌 “데이터”에 있는 것 같습니다.
    Industry와 KeyNote에서는 현업과 Academy 수준에서 발생하는 좋은 데이터의 부재, 데이터의 한계, 빅데이터를 사용할 수 없는 부분과 그 해결책에 대해 언급합니다.

    예를 들어 어떤 부품이 불량인지 아닌지를 검사하는 AI를 학습할 때 얼마나 손상된 것이 불량인가를 지정해주는 것이 굉장히 어렵다고 합니다. 학습에 따라서 100중에 3정도 손상된 것이면 문제없이 잘 돌아가는데 AI가 불량 처리를 할 수 있습니다.
    뿐만 아니라 한국과 중국, 미국에서의 기준점이 달라서 다르게 불량 판별을 해야하는 경우 동일 AI를 사용할 수 없다는 것, 부품이 조금 개량되어 NEW version이 나올 경우 또 다시 AI를 학습시킬 것인지에 대한 문제들이 있습니다.
    이런 부분들은 현업에서는 바로 돈과 직면되는 문제들이기 때문에 잘못할 경우 큰 손해를 볼 수 있습니다.
    이 외에도 Academy 수준에서는 빅데이터를 사용할 수 없기 때문에 GPT같은 모델을 만들 수 없다는 것, 이를 해결하기 위해 pre-training model을 이용하는 방법들에 대해 들어볼 수 있었습니다.

이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.