본문 바로가기
정보토픽

구글 멀티모달 제미나이(Gemini) 발표와 바드 사용, 제미나이 시연 영상 편집 논란

by 호외요! 2023. 12. 10.
반응형

구글이 멀티모달 방식으로 설계된 생성형 AI '제미나이'를 발표하며, 오픈 AI의 챗 GPT 보다 우수한 성능을 강조했다. 하지만 발표 시 선보인 제미나이 시연 영상이 편집된 영상으로 밝혀져 논란이다.

구글이 발표한 제미나이의 성능 테스트 결과와 단계별 사용시기, 시연 영상 편집 논란 등을 알아본다.

구글_제미나이_소개_화면
구글 제미나이, 출처: 구글 블로그

 

 

구글 멀티모달 제미나이(Gemini) 발표와 바드 사용, 제미나이 시연 영상 편집 논란

     

    구글, 제미나이( Gemini) 공개


    구글이 현지시간 12월 6일 거대언어모델(LLM)에 기반한 생성형 인공지능 '제미나이'(Gemini)를 공개했다. 멀티모달(Multimodal) 방식으로 설계된 제미나이는 비전인식을 갖춰 사람과 실시간으로 대화하듯 사용할 수 있다는 구글의 설명이다.

     

    * 멀티모달 (Multimodal)
    텍스트, 이미지, 음성, 영상 등 다양한 데이터 양식(modality)의 입력을 훈련하고 처리해 다양한 결과물을 내놓을 수 있는 모델로 하나의 모달리티를 활용하는 것보다 다양한 작업을 수행할 수 있다.

    멀티모달 AI는 인간의 자연스러운 의사소통 방식을 도입한 기술로, 사용자와 컴퓨터 간의 상호 작용을 더욱 자연스럽고 직관적으로 만든다. 또한, 다양한 데이터 모달리티를 활용함으로써 더 많은 정보를 처리하고 더 정확한 결과를 도출할 수 있다.


    챗 GPT 4보다 뛰어난 성능 강조

    구글은 "자연스러운 이미지와 음성, 영상의 이해부터 수학적 추론까지 제미나이 울트라의 성능은 업계에서 대형 언어 모델(LLM) 연구개발 평가에서 주로 사용되는 32개의 벤치마크 중 30개에서 기존의 최신 기술을 뛰어넘는 결과를 보여주었다"며 오픈 AI의 '챗 GPT 4'보다 성능이 뛰어남을 강조했다.



    반응형



    제미나이 울트라의 성능 테스트(구글 측 발표)


    - MMLU(massive multitask language understanding, 대규모 멀티태스크 언어 이해) 테스트에서 90.04%의 점수를 기록한 최초의 모델.

    - MMMU(Massive Multi-discipline Multimodal Understanding) 벤치마크에서 59.4%의 최상위 점수 획득.

    - 이미지 벤치마크 테스트에서 객체 문자 인식(OCR; object character recognition) 시스템의 도움 없이도 이전의 최신 모델보다 뛰어난 성능을 보였고, 이러한 벤치마크 결과는 제미나이의 기본적인 멀티모달 기반을 강조하는 동시에 제미나이가 더 복잡한 멀티모달 추론 능력이 있다는 가능성을 보여준다.

    * MMLU 테스트: 수학, 물리학, 역사, 법률, 의학, 윤리 등 총 57개의 주제를 복합적으로 활용해 세계 지식과 문제 해결 능력을 평가
    *MMMU 벤치마크: 다양한 영역에 걸친 멀티모달 작업으로 구성된 지표



    구글은 제미나이를, 2023년 초 설립한 '구글 딥마인드'의 비전을 처음으로 실현한, 구글이 개발한 가장 포괄적이고 뛰어난 AI 모델이라고 자체 평가했다.

    첫 번째 버전인 제미나이 1.0은 세 가지 크기로 분류된다.

    - 제미나이 울트라(Gemini Ultra): 매우 복잡한 작업에 적합한 가장 유용하고 규모가 큰 모델

    - 제미나이 프로(Gemini Pro): 다양한 작업에서 확장하기에 가장 적합한 모델

    - 제미나이 나노(Gemini Nano): 온 디바이스 작업에 가장 효율적인 모델



    제미나이의 멀티모달 상호 작용 시연 영상

    제미나이의 멀티모달 상호 작용 시연 영상, 출처:구글 유튜브



    제미나이의 사용


    - 제미나이 프로(Gemini Pro)가 적용된 바드(Bard): 현재 사용가능. 170개 이상의 국가 및 지역에서 영어로 제공, 향후 몇 달 내에 다양한 모달리티로 서비스를 확장하고 새로운 지역과 언어를 지원할 계획

    텍스트 기반 프롬프트

    ▶ 구글 바드(제미나이 프로 적용) 사용


    - 제미나이 울트라(Gemini Ultra): Bard의 최신 AI 경험인 Bard Advanced를 2024년 초 개방 예정

    - 구글 픽셀(Pixel)에 제미나이 나노(Gemini Nano)가 탑재될 예정

    - 제미나이 활용 앱 개발: 12월 13일부터 개발자와 기업 고객은 Google AI Studio 또는 Vertex AI의 제미나이 API를 통해 제미나이 프로 이용 가능.


    제미나이 시연, 편집 영상 논란

     

    구글이 지난 6일 새로운 생성형 AI '제미나이'를 공개하며 시연했던 영상이, 실시간 진행이 아닌 편집 영상으로 알려졌다.

    구글은 지난 영상에서 사람이 그림을 그리면 AI가 무엇인지를 추정해 내고, 사람과 게임을 하는 등 AI가 이미지와 영상을 인식하여 사람과 상호 소통하는 멀티모달 기능의 우수함을 강조했었다.

    하지만 시연 영상은 실시간으로 진행된 것이 아닌, 응답 속도를 높이기 위해 미리 준비된 이미지와 텍스트 프롬프트를 기반으로 제작한 편집 영상으로, 멀티모달(Multi Modal) 기능이 작동하는 것을 예시적으로 묘사한 것이라는 해명이다.

    블룸버그는 12월 8일, 익명의 구글 직원들의 발언을 인용하여

    - "확실한 사실이 아닌 내용을 제미나이 홍보 동영상에 넣는 것이 대중에게 오해를 불러일으킬 수 있다"

    - "공개된 영상을 본 사람들이 상상하는 것과 달리 이 기술은 아직 매끄럽게 작동하지 않는다"
    는 내용을 보도했다.

    지난번 구글 바드(Bard)의 발표때와 마찬가지로 시장의 주도권을 내주지 않으려고 불완전한 상태에서 성급한 발표를 한 모습이다.

    텍스트와 더불어 이미지, 비디오, 오디오, 3D 등 다양한 입력 방식을 모두 처리하는 ‘멀티 모달(Multimodal)’ 의 원활한 구현은 일단 2024년 초 예정된 제미나이 울트라의 개방 후 평가해야 할 듯하다.


    생성형 AI관련 포스팅

    ▶ 생성형 인공지능(AI)의 저작권 논란, 세계의 AI 규제 동향

     

    반응형

    댓글