성장의 법칙! 메가스터디아카데미

메카뎀매거진 Blog

[메카뎀 매거진] #38. 인간처럼 보고 듣고 느끼는 AI, 멀티모달 AI

작성일2024-02-29
조회725

분량

　5분 분량

추천강의

(출처: 오픈AI)

빛나는 네온 가득한 거리를 걸어가는 여자.
눈 덮인 초원을 밟고 다가오는 매머드들.

이 모든 게 오로지 텍스트 입력으로만
완성된 영상이라면 여러분은 믿어지시나요?

위 영상들은 명령어만 입력하면
동영상을 만들어내는 생성형 AI,
바로 소라(Sora)로 만든 영상입니다.

(출처: meta AI)

최근 챗GPT 열풍으로 주목받은 생성형 AI가
이제는 텍스트를 넘어 이미지, 음성, 영상 등
다양한 데이터를 분석하고 추론하는
멀티모달(Multimodal) AI로 발전하고 있는데요.

생성형 AI가 탄생한 지 불과 1년여 만에
AI 기술 트렌드에 많은 변화가 일어나고 있습니다.

오늘은 최근 가장 큰 주목을 받고 있는 AI 분야인
멀티모달(Multimodal) AI에 대해서
함께 알아보도록 하겠습니다.

멀티모달에서 멀티는 여러 개,
모달리티는 양식·양상을 의미하는데요.

즉 멀티모달 AI란 다양한 양식으로 된 정보를
받아들이고 학습할 수 있는 AI입니다.

불과 몇 년 전까지만 해도 AI는
하나의 모달리티만 입력하는
유니모달(unimodal) 위주로 발전되어 왔습니다.

이러한 유니모달은 주로 텍스트를 통해서만
정보를 배우고 처리하는데요.

따라서 단어를 아무리 많이 알아도
단어가 지칭하는 대상이 어떻게 생겼는지,
혹은 현실에서 어떤 의미를 갖는지까지는
AI가 이해하지 못했습니다.

예를 들어 '여자가 차를 타고 있다'라는 문장에서
'탄다'라는 개념을 이해하지 못했으며,
차의 크기가 얼마만 한 것인지,
어떤 형태로 타는 것인지 알 수가 없었죠.

즉, 데이터 처리나 텍스트를 검색해서
보여주는 것은 가능하지만,
인간과 유사한 방식의 사고는 할 수 없었습니다.

(출처: 네이버 채널 테크)

하지만 이제 AI가 텍스트, 이미지, 음성을
스스로 학습할 뿐만 아니라
해석하고 동시에 처리할 수 있게 되었습니다.

사람처럼 여러 감각을 동시에 활용하게 되면서
복잡한 정보를 이해하고 처리할 수 있게 된 것이죠.

(출처: 한국경제)

멀티모달 AI는 단일 유형의 데이터만 다루는
AI에 비해 다양한 데이터를 함께 고려하여
서로의 관계성을 학습하고 표현할 수 있어
보다 다양한 작업을 수행할 수 있습니다.

예를 들어, 이미지로 텍스트 검색을 하거나
텍스트에서 이미지를 검색,
혹은 이미지와 텍스트를 같이 이해하는
멀티모달 검색이 가능하게 되었습니다.

(출처: 세계일보)

멀티모달을 활용하면 이전에 시도하지 못했던
새롭고 다양한 서비스를 만들 수 있어,
빅테크 간의 경쟁이 본격화하고 있는데요.

1. 소라(Sora)

그중에서도 챗GPT로 생성형 AI 열풍을 일으킨
오픈 AI가 한발 앞서고 있습니다.

오픈AI는 지난해 3월 연산이 가능한 GPT-4를 공개했고
9월엔 챗GPT에 음성과 이미지 기능을 추가했습니다.

또한 지난 2월 15일 간단한 명령어만 입력하면
고화질의 동영상을 만들어주는
소라(Sora)를 발표하기도 했죠.

특히 소라는 기존의 비디오 생성 모델에 비해
압도적인 해상도와 생생한 퀄리티로
많은 사람들을 놀라게 했는데요.

(출처: 오픈AI)

위의 영상을 만드는데 몇 줄이 필요했을까요?

눈 내리는 아름다운 도쿄가 북적거립니다.
카메라는 북적이는 거리를 따라 움직이며
근처 노점에서 쇼핑을 하는 사람들을 따라갑니다.
화려한 벚꽃잎이 눈송이와 함께 바람에 날리고 있습니다.

단 세 줄입니다.

이렇게 소라는 간단한 분량의 문장을 입력하기만 하면
최대 1분 길이의 1920x1080
고해상도 영상을 바로 제작할 수 있습니다.

(출처: 오픈AI)

뿐만 아니라 소라는
세밀한 작업과 많은 시간이 소요되는
3D 애니메이션 영상도 만들어 낼 수 있습니다.

2. 제미나이(Gemini)

오픈 AI에 맞서 구글 또한
2월 15일 멀티모달 AI 모델
제미나이(Gemini)를 공개했는데요.

(출처: 인공지능 신문)

제미나이 1.5 프로는 많은 양의
영상과 음성, 텍스트를 이해하고
빠진 정보까지 추론해 채울 수 있습니다.

무려 1시간 분량의 영상과 11시간 분량의 음성,
70만 단어 이상의 텍스트에 해당하는
방대한 정보를 한 번에 처리할 수 있습니다.

3. 에뮤 비디오(Emu Video)

페이스북, 인스타그램을 서비스하는
메타 또한 텍스트로 영상을 만드는
에뮤 비디오(Emu Video)를 공개했습니다.

(출처: Meta)

에뮤 비디오는 텍스트를 입력하면
그림을 그려주거나 움직이기도 하는
AI 서비스인데요.

(출처: Meta)

또한 수정사항을 텍스트로 입력하면
그에 맞춰서 AI가 이미지를 수정해 주기도 합니다.

예를 들어 '개가 수영하는 모습으로 바꿔줘.'라고
이야기하면 AI가 개를 인식해서 다시 그려줍니다.

마크 저커버그 CEO 이러한 에뮤 비디오를
인스타그램과 페이스북에
탑재할 가능성도 제시했는데요.

현재 탑재되어 있는 이미지 편집 기능에
에뮤 에디트를 추가할 경우에
사용자들은 훨씬 편리하게 이미지 또는 영상을
생성할 수 있을 것이므로 기대가 됩니다.

국내 기업들도 이러한 흐름에 맞춰
멀티모달 AI 서비스 개발에 한창인데요.

1.옴니서치(Omnisearch)

네이버는 최근 네이버 검색 쇼핑에
이미지·텍스트를 동시에 인식하는
멀티모달 AI인 옴니서치를 적용했습니다.

그동안 문서검색 위주로만 시범 적용해
오던 것을 쇼핑 검색으로 확장했습니다.

(출처: 네이버 검색 블로그)

텍스트만으로 찾기 어려운 상품 정보를
이미지 등 요소를 추가 활용해서
세밀한 검색을 할 수 있게 되었습니다.

쇼핑 상품의 텍스트에는 없지만
느낌과 분위기 같은 정보도
속성으로 활용할 수 있는데요.

(출처: 네이버 검색 블로그)

예를 들면 원피스를 검색해서
마음에 드는 베이지 원피스를 접했는데
'컬러가 더 연했으면 좋겠다'라는 생각이 들 때
해당 원피스 이미지에서 + 버튼을 누르고
'연한 베이지 색상'을 입력하면 됩니다.

색상뿐만 아니라 상품명, 재질,
브랜드 등 키워드를 추가해서
더 고도화된 결과를 확인할 수 있습니다.

이러한 멀티모달 AI는 원하는 상품을
찾는 시간을 단축시키고,
쇼핑 검색 만족도를 더욱 높일 수 있는데요.

네이버는 패션 아이템을 시작으로
이미지를 많이 찾는 분야인
가구, 인테리어 등으로도
멀티모달 AI 기술을 확장할 계획이라고 밝혔습니다.

2. 허니비(Honeybee)

카카오는 멀티모달 언어모델의 오픈소스
허니비(Honeybee)를 공개했는데요.

이미지와 텍스트를 모두 입력한 뒤
이미지에 담긴 장면을 묘사하거나
이미지와 텍스트가 혼합된 질문을 하면,
이를 이해하고 답변할 수 있습니다.

(출처: 카카오 브레인)

예를 들어 “이 사진에 있는 사람들이
무슨 대화 할 것 같아?” 하고 물으면
추론해서 답을 해주기도 합니다.

이렇게 멀티모달 AI는 놀라움과 편리함을 주지만
한편으로는 멀티모달이 고도화할수록
결과물에 대한 사실 여부를 가려내기
힘들 것이라는 지적도 나오고 있습니다.

AI 기술을 활용한 딥페이크,
영상 및 음성 조작이 현실화되고 있기 때문인데요.

(출처: MBC)

최근 이스라엘과 하마스의 가짜 뉴스 또한
그러한 우려가 현실로 잘 드러난 예시 중 하나죠.

또한 현실과 비슷한 사람, 캐릭터 등이
향후 저작권 논란에 휩싸일 가능성도 있습니다.

정교한 이미지가 만들어낸 높은 현실감이
새로운 우려를 만들고 있는 것이죠.

오픈AI는 제품의 안전성 테스트를 위해
소라를 당분간 일부 영화·애니메이션 제작자와
딥페이크를 적발하는 전문 인력에게만
제한적으로 공개한다는 입장을 내놓았는데요.

(출처: AI타임스)

AI 생성 작품임을 알리는 워터마크 등을
모두 삽입하겠다고 밝혔지만,
인위적으로 지워질 수 있다는 점도 인정했습니다.

(출처: 360iResearch)

2023년 멀티모달 Al 시장 규모는
무려 16억 3,000만 달러를 기록하였는데요.

2030년에는 46억 4,000만 달러로 예상되며,
지속적인 성장을 할 것으로 예측하고 있습니다.

이처럼 올해도 AI는 많은 분야에서
발생하는 문제 해결을 돕고
생산성을 높일 수 있는 전망인 것은 분명합니다.

하지만 AI가 발전함에 따라
책임이 따르도록 규제하는 것이
필요한 시대가 되었습니다.

따라서 앞으로는 멀티모달 AI를 어떻게 하면
'잘' 활용할 수 있을지에 대해
많은 고민과 노력이 필요할 것 같습니다.

♥ 메카뎀 매거진을 만드는 사람들 ♥
- 달려라DH, 아하, 동자, 정콩

[모바일]

(출처: meta AI)

최근 챗GPT 열풍으로 주목받은 생성형 AI가
이제는 텍스트를 넘어 이미지, 음성, 영상 등
다양한 데이터를 분석하고 추론하는
멀티모달 AI로 발전하고 있는데요.

생성형 AI가 탄생한 지 불과 1년여 만에
AI 트렌드에 많은 변화가 일어나고 있습니다.

오늘은 최근 가장 큰 주목을 받고 있는 AI 분야인
멀티모달(Multimodal) AI에 대해서
함께 알아보도록 하겠습니다.

불과 몇 년 전까지만 해도 AI는
하나의 모달리티만 입력하는
유니모달 위주로 발전되어 왔습니다.

이러한 유니모달은 주로 텍스트를 통해서만
정보를 배우고 처리하는데요.

따라서 단어를 아무리 많이 알아도
단어가 지칭하는 대상이 어떻게 생겼는지,
혹은 현실에서 어떤 의미를 갖는지까지는
AI가 이해하지 못했습니다.

예를 들어 '여자가 차를 타고 있다'라는 문장에서
'탄다'라는 개념을 이해하지 못했으며,
차의 크기가 얼마만 한 것인지,
어떤 형태로 타는 것인지 알 수가 없었죠.

즉, 데이터 처리나 텍스트를 검색해서
보여주는 것은 가능하지만,
인간과 유사한 방식의 사고는 할 수 없었습니다.

(출처: 네이버 채널 테크)

하지만 이제 AI가 텍스트, 이미지, 음성을
스스로 학습할 뿐만 아니라
해석하고 동시에 처리할 수 있게 되었습니다.

사람처럼 여러 감각을 동시에 활용하게 되면서
복잡한 정보를 이해하고
또 처리할 수 있게 된 것이죠.

(출처: 한국경제)

멀티모달 AI는 단일 유형의 데이터만 다루는
AI에 비해 다양한 데이터를 함께 고려하여
서로의 관계성을 학습하고 표현할 수 있어
다양한 작업을 수행할 수 있습니다.

예를 들어, 이미지로 텍스트 검색을 하거나
텍스트에서 이미지를 검색,
혹은 이미지와 텍스트를 같이 이해하는
멀티모달 검색이 가능하게 되었습니다.

오픈AI는
지난해 3월 연산이 가능한 GPT-4를 공개했고
9월엔 음성 및 이미지 기능을 추가했습니다.

또한 지난 2월 15일 간단한 명령어만 입력하면
고화질의 동영상을 만들어주는
소라(Sora)를 발표하기도 했죠.

특히 소라는 기존의 비디오 생성 모델에 비해
압도적인 해상도와 생생한 퀄리티로
많은 사람들을 놀라게 했는데요.

(출처: 오픈AI)

위의 영상을 만드는데 몇 줄이 필요했을까요?

눈 내리는 아름다운 도쿄가 북적거립니다.
카메라는 북적이는 거리를 따라 움직이며
근처 노점에서 쇼핑하는 사람들을 따라갑니다.
벚꽃잎이 눈송이와 함께 바람에 날리고 있습니다.

단 세 줄입니다.

이렇게 소라는 간단한 분량의 문장을 입력만 하면
최대 1분 길이의 1920x1080
고해상도 영상을 바로 제작할 수 있습니다.

(출처: Meta)

에뮤 비디오는 텍스트를 입력하면
그림을 그려주거나 움직이기도 하는
AI 서비스인데요.

(출처: Meta)

또한 수정사항을 텍스트로 입력하면
AI가 이미지를 수정해 주기도 합니다.

예를 들어 '개가 수영하는 모습으로 바꿔줘.'라고
이야기하면 AI가 개를 인식해서 다시 그려줍니다.

마크 저커버그 CEO 이러한 에뮤 비디오를
인스타그램과 페이스북에
탑재할 가능성도 제시했는데요.

현재 탑재되어 있는 이미지 편집 기능에
에뮤 에디트를 추가할 경우에
사용자들은 훨씬 편리하게 이미지 또는 영상을
생성할 수 있을 것이므로 기대가 됩니다.

(출처: 네이버 검색 블로그)

예를 들면 원피스를 검색해서
마음에 드는 베이지 원피스를 접했는데
'컬러가 더 연했으면 좋겠다'라는 생각이 들 때
해당 원피스 이미지에서 + 버튼을 누르고
'연한 베이지 색상'을 입력하면 됩니다.

색상뿐만 아니라 상품명, 재질,
브랜드 등 키워드를 추가해서
더 고도화된 결과를 확인할 수 있습니다.

이러한 멀티모달 AI는 원하는 상품을
찾는 시간을 단축시키고,
쇼핑 검색 만족도를 더욱 높일 수 있는데요.

네이버는 패션 아이템을 시작으로
이미지를 많이 찾는 분야인
가구, 인테리어 등으로도
멀티모달 AI 기술을 확장할 것이라고 밝혔습니다.

2. 허니비(Honeybee)

카카오는 멀티모달 언어모델의 오픈소스
허니비(Honeybee)를 공개했는데요.

이미지와 텍스트를 모두 입력한 뒤
이미지에 담긴 장면을 묘사하거나
이미지와 텍스트가 혼합된 질문을 하면,
이를 이해하고 답변할 수 있습니다.