뉴스 바로가기

기사 상세

IT·과학

네이버랩스, ‘2024 유럽컴퓨터비전학회’ 공간지능 기술 챌린지 1위 차지

김태성 기자
입력 : 
2024-10-08 14:45:32

뉴스 요약쏙

AI 요약은 OpenAI의 최신 기술을 활용해 핵심 내용을 빠르고 정확하게 제공합니다. 전체 맥락을 이해하려면 기사 본문을 함께 확인하는 것이 좋습니다.

네이버랩스(대표 석상옥)는 자체 '공간지능(Spatial Intelligence)' 기술로 최근 개최된 '2024 유럽컴퓨터비전학회(ECCV, European Conference on Computer Vision)' 내 챌린지 두 부문에서 1위를 차지했다고 8일 밝혔다.

일반적으로는 사전에 생성된 3D·HD 지도를 기반으로 측위(Localization)을 수행하지만, 재난 또는 공사 현장 등 지도를 생성하거나 미리 준비할 수 없는 상황에 대비해 지도 없이도 측위가 가능한 기술의 중요성이 높아지고 있다는게 네이버랩스측 설명이다.

네이버랩스는 이번 챌린지에 이미지를 3D로 재구성하는 AI 기술 도구 '마스터(MASt3R)'를 선보였다.

언어변경

글자크기 설정

비전 분야 세계 최고 학회서
사진 한 장으로도 3D 모델링 구현
정밀지도 없이 정확한 측위로 기술력 뽐내
네이버클라우드 논문도 11건 채택

네이버랩스(대표 석상옥)는 자체 ‘공간지능(Spatial Intelligence)’ 기술로 최근 개최된 ‘2024 유럽컴퓨터비전학회(ECCV, European Conference on Computer Vision)’ 내 챌린지 두 부문에서 1위를 차지했다고 8일 밝혔다.

ECCV는 이미지 및 영상 등 컴퓨터 비전 분야에 특화된 최신 인공지능(AI) 연구 성과를 발표하고 새로운 기술 화두를 제시하는 세계 최고 권위의 학회로, 글로벌 빅테크는 물론 비전 분야 세계 최고 석학들이 참석한 가운데 2년 주기로 개최된다.

올해는 지난달 28일부터 이달 4일까지 이탈리아 밀라노에서 열렸다.

네이버랩스는 이번 ECCV 2024에서 ▲Map-free visual re-localization ▲BOP(Benchmark for 6D Object Pose Estimation) 챌린지 두 부문에 도전해 모두 1위를 거머쥐었다.

지난달 28일부터 이탈리아 밀라노에서 진행된 ECCV 2024에서 네이버랩스 연구원들이 MASt3R에 대해 발표하고 있다. <사진제공=네이버랩스>
지난달 28일부터 이탈리아 밀라노에서 진행된 ECCV 2024에서 네이버랩스 연구원들이 MASt3R에 대해 발표하고 있다. <사진제공=네이버랩스>

이중 Map-free visual re-localization 챌린지는 정밀지도 등이 없는 상황에서도 얼마나 정확하게 측위가 가능한지를 겨룬다.

일반적으로는 사전에 생성된 3D·HD 지도를 기반으로 측위(Localization)을 수행하지만, 재난 또는 공사 현장 등 지도를 생성하거나 미리 준비할 수 없는 상황에 대비해 지도 없이도 측위가 가능한 기술의 중요성이 높아지고 있다는게 네이버랩스측 설명이다.

네이버랩스는 이번 챌린지에 이미지를 3D로 재구성하는 AI 기술 도구 ‘마스터(MASt3R)’를 선보였다.

MASt3R는 정밀지도가 없는 상황에서도 충분히 정확한 측위가 가능하다는 점을 인정받아 구글, 애플, 메타 등 12개 참가팀 중 압도적인 1위를 차지했다.

MASt3R는 네이버랩스유럽이 개발한 3D 비전 파운데이션 모델(VFM) ‘크로코(CroCo)’를 기반으로 만든 ‘더스터(DUSt3R)’의 업그레이드 버전이다.

DUSt3R는 1~2장 정도의 사진만으로도 특정 건물이나 실내 공간 등의 3D 모델링을 구현할 수 있는 AI 기술 도구다.

MASt3R는 DUSt3R를 한 단계 더 발전시켜, 한 번에 수천장의 대규모 이미지 데이터를 일괄 처리하면서도 건물 내부는 물론 도심 단위의 복잡한 환경까지 빠르고 정확하게 3D 모델로 구현할 수 있다.

네이버랩스가 지난해에 이어 2년 연속 1위를 차지한 BOP 챌린지에서는 이미지 내에 있는 물체들의 3차원 회전과 위치를 얼마나 정확히 추정하는지 겨룬다.

네이버랩스가 제출한 기술 모델은 RGB이미지만으로도 물체의 위치를 가장 정확하게 측위(The Best RGB-Only Method)하고, 또 가장 빠르게 처리(The Best Fast Method)할 수 있다는 평가를 받으며 1위를 차지했다.

ECCV 2024에서 1위를 차지한 네이버랩스의 MASt3R. 3D 비전 파운데이션 모델 CroCo를 기반으로 제작됐다. <사진제공=네이버랩스>
ECCV 2024에서 1위를 차지한 네이버랩스의 MASt3R. 3D 비전 파운데이션 모델 CroCo를 기반으로 제작됐다. <사진제공=네이버랩스>

지난 2017년 별도 법인으로 출범한 네이버랩스는 꾸준한 기술 연구를 바탕으로 공간지능 분야에서 기술 화두를 제시해왔다.

2019년 인수한 세계 최대 AI 연구소 네이버랩스유럽을 통해 비전 기술을 축적해온 결과, 2019년 CVPR에서 VL(Visual Localization) 요소 기술 ‘R2D2’로 글로벌 IT기업들을 제치고 1위를 차지한 바 있다.

이어 지난해 3D 비전 파운데이션 모델 CroCo를 선보이고 올해 CVPR에서 MASt3R까지 공개하며 전세계 연구자들 사이에서 기술 화두를 선도하고 있다.

석상옥 네이버랩스 대표는 “인공지능에 이어 새로운 미래 변화를 만들어 낼 공간지능은 네이버랩스 출범 이후 로봇과 자율주행 기술을 발전시켜 오며 꾸준히 준비해 온 분야이자 핵심 경쟁력 그 자체”라며 “로봇, 자율주행, 디지털 트윈은 물론 이를 지원하는 클라우드 인프라, 1784와 같은 핵심 테스트베드, 나아가 중동 등 새로운 글로벌 이정표로도 확장할 수 있도록 R&D에 더욱 매진하겠다”고 말했다.

한편 이번 ECCV 2024에서 네이버클라우드도 11편의 AI 연구 논문이 게재 승인되는 성과를 거뒀다.

네이버클라우드는 논문을 통해 최근 ‘멀티모달(Multimodal) AI’ 부상으로 더욱 주목받고 있는 컴퓨터 비전 분야 기술력을 선보였다.

특히 AI 모델 제작에 필요한 다량의 이미지와 텍스트 데이터를 보다 효과적으로 정제해 양질의 학습 데이터셋을 구축할 수 있는 방법을 제안한 연구, 이미지 인식 모델 성능을 향상시키는 방법을 소개한 연구 등을 발표하며 글로벌 AI 연구자들의 주목을 받았다.

네이버는 이처럼 경쟁력 있는 비전 AI 기술을 바탕으로 생성형 AI 서비스 고도화에 속도를 낼 예정이다.

지난 8월에는 자체 초대규모 생성형 AI ‘하이퍼클로바X’ 기반의 시각 정보 처리 기술을 공개하고 이를 대화형 AI 서비스 ‘클로바X’에 탑재했다.

네이버에 따르면, ChartQA, DocVQA, MathVista, MMMU 등 8개 벤치마크를 기준으로 하이퍼클로바X의 이미지 이해 능력은 글로벌 최고 수준 모델의 99.94%에 달한다. 지속적으로 성능을 향상시켜 나갈 계획이다.

이 기사가 마음에 들었다면, 좋아요를 눌러주세요.