SCAI AI Lunch Talk - Deep Learning @ Naver / Line
2019년 3월 21일. 서울대학교의 SCAI(SNU Center for AI)에서 주최하는 딥러닝 세미나가 있었다. SCAI 창설 이후 첫 세미나인 오늘은 ‘모두를 위한 딥러닝’ 동영상 강좌로 유명한 전 홍콩과기대 교수 김성훈 NAVER Clova AI 리더가 연사로 나섰다.
Clova AI
Clova AI에서 주로 집중하는 AI 분야는 크게 Speech, Vision, Language로 나누어진다. 세 가지 모두 현재 가장 대표적인 AI 기술이며, 특히 이 세 가지 기술은 미디어 콘텐츠 부분에서 큰 영향을 할 수 있는 기술로, 네이버가 미디어 콘텐츠 시장에 큰 관심을 가지고 기여하를 하고 있다는 점을 느낄 수 있었다.
Challenges
미디어 콘텐츠를 대상으로 하는 AI 기술을 개발하는데 있어서 대표적인 Challenge는 크게 두 가지 정도로 요약할 수 있을 것 같다.
비정형 데이터의 처리
최근 업그레이드 된 네이버 모바일 어플리케이션에서 서비스하고 있는 렌즈라는 기능에 대한 소개로 시작하겠다. 렌즈 서비스는 사진을 통한 검색 서비스로 Google에서도 제공하고 있는 이미지 검색과 유사한 기능이다. 특히 Naver에서는 Naver Shopping과 같은 커머스 플랫폼과 연계하여 사진을 통해 상품을 검색하는 기능을 효과적으로 제공하고 있다. 본 세미나에서는 공기 청정기 사진을 통해 공기청정기 가격을 검색하는 것을 예시로 들었는데 실제 검색을 목적으로 올바른 각도에서 촬영한 상품에 대해서는 95% 이상의 정확도가 나온다고 한다. 그러나 다른 사물과 뒤섞여 찍히는 등 비정형 적인 데이터에 대한 처리가 Vision 기술에서 주요 Challenge 라고 하겠다.
Optical Character Recognition (OCR)
특정 사진에서 가장 효과적으로 사진에 대한 정보를 추출하는 방법은 무엇일까? 아마도 사진에 있는 글자를 인식하여 그 뜻을 기반으로 정보를 추출한다면 가장 높은 퀄리티의 정보를 추출할 수 있을 것이다. Naver에서는 이러한 OCR 기술에 대해서 현재 Google보다 우수한 기술을 가지고 있다고 김성훈 리더는 설명했다. 예시에서는 반듯하게 쓴 문자 뿐 아니라 나선형으로 쓴 문자, 서로 다른 크기를 가진 문자들에서도 Google의 결과보다 Naver의 OCR 결과가 더 우수함을 볼 수 있었다.
자 이제 본격적으로 Naver Clova AI에서 서비스하는 기술들에 대해서 정리 해보도록 하겠다.
누끼
누끼는 일본어에 어원을 둔 단어로, 흔히 사진이나 그림에서 배경을 제거하고 특정한 개체만을 가져오고 싶을 때 하는 작업이다. 요즘에는 디자인 업계에 종사하는 사람 뿐 아니라 일반 사람들도 다양한 콘텐츠를 만들고 특히 발표 자료등을 만들면서 사진을 넣을 때 많이 하는 작업이다. 필자는 기존에 Microsoft Power Point에서 제공하는 “배경 제거” 기능을 이용하여 누끼 작업을 많이 했었는데 이번 세미나에서 Naver의 딥러닝 기반 누끼 툴을 이용할 수 있다면 사용해야 겠다는 생각을 했다.
누끼 작업을 하면서 가장 어려운 부분이 배경이 아닌 부분까지 잘라낸다는 것이다. 조금만 마우스 컨트롤을 실수해도 배경이 아닌 부분까지 잘려나가 작업을 다시 해야하는 경우가 많다. Clova AI에서 제공하는 누끼 서비스는 딥러닝을 이용해 배경 부분을 자동으로 제거하고 그 정확도도 상당히 높다.
Depth 카메라 효과 구현
최근 iPhone XS와 XS Max에서 제공되고 있는 Depth 카메라에 대해 이미 알고 있는 사람이 많을 것이다. Depth 카메라는 사물의 거리를 카메라가 인식하여 사진에 반영하는 기술로 포커스가 맞추어진 가까운 사물은 선명하게, 멀리있는 사물은 흐리게 처리해주는 기술이다. Depth 카메라 기술을 통해 실제 사람의 눈으로 장면을 보는 것과 유사한 효과를 사진에 줄 수 있다. Clova AI에서는 Depth 카메라를 사용하지 않고도 Depth 카메라와 유사한 사진을 만드는 서비스를 제공하고 있다. 딥러닝을 통해 사진에서 멀리 있다고 판단되는 물체는 흐리게, 가까이 있다고 판단되는 물체는 선명하게 만들어 주는 기술인데 실제 결과물이 상당한 퀄리티를 가지고 있었다.
iPhone XS의 Depth 카메라를 통해 촬영한 사진. 배경이 흐릿하게 처리됨을 알 수 있다.
AD Platform
AD Platform은 Advertise Platform의 약자로 특정 광고 상품에 고객들이 선호하는 그림 스타일을 융합시켜 새로운 광고 이미지를 만들어내는 기술이다. 이번 세미나에서는 신발 그림을 다른 사진과 융합하는 예시를 들었다.
얼굴 인식
아마 Vision 분야에서 가장 많이 관심을 받고 발전되고 있는 기술 중 하나가 얼굴 인식이 아닐까 생각된다. 이번 세미나에서도 Vision, 특히 얼굴 인식과 모션 인식에 대한 내용이 상당히 흥미로웠다.
현재 Naver Clova AI에서는 얼굴 인식, 모션 인식 기술을 적용한 여러 가지 서비스를 제공하고 있다. 이번 세미나에서 소개된 서비스들을 하나씩 요약해보도록 하겠다.
동영상에서 특정 인물 추출하기
필자의 경우 최근 유투브나 페이스북을 이용해 동영상을 자주 시청한다. 나 뿐만 아니라 지하철을 타면 많은 사람들이 스마트폰을 통해 동영상을 보고 있다. 그런데 동영상을 보다 보면 내가 원하는 장면, 원하는 연예인이나 인물이 나오는 장면만을 보고 싶을 때가 생긴다. Clova AI에서는 동영상에서 특정 인물이 나오는 부분만 추출하여 재생해주는 서비스를 제공하고 있다.
이 뿐만 아니라 최근 연예인, 특히 아이돌 그룹에 대한 팬덤이 상당히 커지면서 자신이 좋아하는 특정 연예인에 대한 영상들을 모두 모아 보고자 하는 사람들이 많아졌다. 이 경우에도 Clova AI의 서비스를 이용하면 인터넷 상에서 특정 인물에 대한 영상을 모아서 보여준다. 물론 이 모든 서비스는 얼굴 인식 기술을 통해 만들어 진다.
이번 세미나에서 선보인 서비스 중 가장 신기했던 서비스 중 하나가 아이돌 가수의 직캠 영상을 만드는 서비스였다. 세미나에서는 YG 소속의 걸그룹 블랙핑크의 음악 방송 영상을 이용한 예시를 가져왔는데 하나의 영상으로부터 총 4명의 그룹 멤버들의 움직임을 추적해서 각각의 직캠 영상을 4분할된 화면에 보여주었다. 실제로 Naver에서 이렇게 만들어진 직캠 영상의 조회수와 좋아요 수를 분석한 결과 모두 합쳐진 영상에 비해 훨씬 많은 조회수와 좋아요 수를 받았다고 한다.
댄스 모션 인식
모션 인식 기술이 가장 활발하게 사용될 수 있는 동영상 콘텐츠 중 하나가 댄스 영상일 것이다. Clova AI에서 개발하고 있는 서비스 중 모션 인식을 이용한 서비스로 크게 두 가지 예시를 들었다.
첫 번째는 댄스 영상의 모션을 캐릭터에 입히는 기술이다. 가수나 댄서의 댄스 영상에서 모션을 추출하여 내가 원하는 만화 캐릭터나 게임 캐릭터가 춤을 추는 영상을 만들어 주는 서비스였다.
두 번째는 댄스의 모션 유사도를 측정하여 댄스 점수를 메기는 서비스 였다. 우리가 흔히 노래방에 가서 노래를 부르면 마지막에 점수를 보여주는데 이와 비슷한 개념으로 모션 인식을 이용하여 댄스에 점수를 메기는 서비스이다. 예시에서는 실제 댄서와 그 댄스를 따라 추는 두 사람의 영상을 비교하여 AI가 점수를 메기는 것을 시연했는데 실제 사람이 느끼는 점수와 비슷하게 점수를 메긴다고 한다. 실제 예시 또한 그러했다. 필자 개인적인 생각으로 현재 10대들 사이에서 인기를 끌고 있는 TikTok 앱을 보면 댄스 영상이나 연기 영상이 상당히 많이 올라온다. 또한 10대들은 본인의 영상을 다른 사람의 영상과 비교하는 것을 새로운 문화로 만들고 있다. 이러한 트렌드에 본 기술이 효과적으로 접목될 수 있지 않을까 하는 생각이 들었다.
드라마 장면 예측
영화 마이너리티 리포트 처럼 앞으로 일어날 일을 예측할 수 있다면? 특히 드라마를 보면서 앞으로 무슨 일이 일어날 것인지, 주인공이 울음을 터트릴 것인지 키스를 할 것인지를 예측할 수 있다면 어떨까? 드라마의 스포일러가 될 수도 있지만 우리는 때때로 중요한 순간에 드라마가 끝나는 것을 보면서 다음화를 미치도록 궁금해 하기도 한다. Clova AI에서는 드라마의 장면을 분석하여 다음에 어떤 장면이 나올지 예측하는 서비스를 개발중에 있다. 이 서비스의 시연에서 드라마 장면의 시간 흐름에 따른 확률 분포를 함께 보여주었는데 확률 분포가 높은 지점에서 정확히 장면을 분석함을 볼 수 있었다.
스포츠 하이라이트 태깅
야구 경기를 보다가 갑자기 자리를 비운 사이 홈런이 터졌다면? 다시 장면을 되감기 할 수도 있으나 Clova AI는 홈런 장면을 자동으로 태깅하여 사용자에게 서비스한다.
음성 기술
Vision 기술에 이어 다음으로 설명할 기술은 음성 기술이다. 음성 기술은 소리를 인식하는 음성 인식 기술과 소리를 만들어내는 음성 합성 기술 두 가지로 크게 나눌 수 있다.
음성 합성 기술
실제 Clova AI assistant에는 배우 유인나씨의 목소리가 들어가 있다고 한다. 유인나씨가 직접 모든 소리를 녹음한 것이 아니라 4시간 정도의 목소리 샘플을 추출하여 Clova AI가 직접 소리를 만들어 낸다.
이러한 음성 합성 기술이 효과적으로 사용될 수 있는 분야가 학습 콘텐츠 더빙이다. 영어로 녹음된 학습 콘텐츠에 음성 합성 기술을 이용하여 한국어 더빙을 함으로써 학습 효과를 높일 수 있다고 한다.
음성 인식 기술
현재 조용한 환경에서의 음성 인식 기술은 상당한 정확도를 보인다고 한다. 그러나 여러 소리가 중첩되거나 시끄러운 환경에서의 음성 인식 기술은 여전히 Challenge로 남아있다.
Clova AI에서는 음성 인식 기술을 이용하여 식당 예약, 주문 서비스인 Clova Duet을 개발 중에 있다. 최근 Google Conference에서도 유사한 기술이 공개되었는데 고객이 식당에 전화를 걸어 예약을 하고 주문을 할 수도 있고, 식당의 메뉴를 추천해주거나 고객의 설명으로 부터 원하는 메뉴가 무엇인지 알아내는 기술도 개발중에 있다.
최근 AI assistant가 시장에 많이 나오면서 항상 아쉬웠던 점이 wake up call을 해야한다는 것이었다. 예를 들어 iPhone의 Siri 같은 경우 Hey, Siri 라고 부르거나 삼성의 빅스비와 같은 경우에는 Hi, Bixby와 같은 wake up call이 필수적이다. 그러나 우리 일상 생활에서 누군가에게 말을 걸때 꼭 이름을 먼저 부르고 말을 거는 것은 아니다. Clova AI에서는 wake up call 없이 AI assistant를 wake up 시킬 수 있는 기술을 개발중에 있다. 이 기술은 음성 인식 기술 뿐 아니라 문맥과 억양을 이해하는 자연어 기술도 포함하고 있다.
기타 기술
그 외의 기술로 사람의 손 글씨 샘플을 학습하여 그 사람의 손 글씨와 유사한 글씨를 만들어 주는 기술을 선보였다. 실제 예시의 글씨도 AI가 썼다고 생각하기 힘들 정도로 사람이 쓴 글씨체와 AI가 쓴 글씨체가 유사했다.
마치며
김성훈 리더는 세미나를 마치며 AI 기술을 만드는데 가장 중요한 요소 세 가지를 꼽았다. 첫 번째는 Deep Learning Model, 두 번째는 Engineering, 세 번째는 User Satisfaction이다. 이 셋 중에서도 Engineering을 가장 중요하게 꼽았다. 실제로 존재하는 Deep Learning Model을 통해서 새로운 아키텍처를 구성하고 이를 구현하는 것이 가장 중요하다는 것이다.
“모두를 위한 딥러닝” 강좌를 통해 김성훈 리더를 처음 접했다. “모두를 위한 딥러닝”은 딥러닝을 시작하려 할 때 필자가 꼭 추천하는 강좌이다. 그만큼 김성훈 리더의 내용 전달력과 강좌 구성이 좋다. 이번 세미나를 통해 Naver Clova AI의 기술력에 대해서도 감탄했지만 김성훈 리더의 강의 전달력에도 감탄하고 많은 것을 배울 수 있었다. 또한 앞으로도 Naver Clova AI의 기술력과 서비스에 더욱 주목해야 할 필요성을 느꼈다.