크크루쿠쿠

The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) 정리 본문

DeepLearning/논문 리뷰

The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) 정리

JH_KIM 2023. 10. 9. 23:37

GPT-4V 라는 이름으로 이제 이미지도 Input으로 넣을 수 있는 GPT4 모델이 논문으로 공개되었다! 성능이 상상이상으로 좋은 것 같아 앞으로 어떤 일들이 벌어질지 큰 기대가 된다.

다만 논문에 성능에 대한 metric들이 공개가 안되어있어서 아쉬웠다. 하다못해 밑에 나오는 IQ test 결과라도 궁금했는데..

Introduction

Motivation and Overview

지금까지 LLMs 은 엄청난 발전이 있었습니다. 다음으로는 large multimodal models(LMMs)은 LLM의 capabilities를 확장함으로써 general intelligence를 강화시킵니다. 지금까지는 Visual encoder를 LLM과 일치하도록 fine tuning 하거나 vision-language model을 사용해서 text를 LLMs에 직접 넣어주는 방식을 사용해왔습니다. 하지만 이 방식으로는 제한된 모델이나 데이터 스케일 제한으로 인해 성능에 한계가 있었습니다. 그래서 이 논문에서 SOTA LLM인 GPT-4 기반으로 구축되고 대규모 데이터로 학습된 최신 LMM인 GPT-4V를 소개합니다.

  1. What are GPT-4V’s supported inputs and working modes?
    GPT-4V는 입력 이미지, 서브 이미지, 텍스트, 장면 텍스트, visual point등을 섞은 인풋을 이해하고 처리하는데 엄청난 성능을 보입니다.
  2. What are the quality and genericity of GPT-4V’s capabilities on different domains and tasks?
    openworld visual understanding, visual description, multomodal knowledge, commonsense, scene text understanding, document reasoning, coding, temporal reasoning, abstract reasoning, emotion understanding 등등 인간 수준의 인상적인 능력을 보여줌
  3. What are effective ways to use and prompt GPT-4V?
    GPT-4V는 입력 이미지에 그려진 visual pointer 와 장면 텍스트와 같은 픽셀 공간 편집을 이해하는 데 강점이 있습니다. 여기서 영감을 받아 입력 이미지를 직접 편집해서 task를 지시하는 visual referring prompting에 대해 설명합니다.
  4. What are promising future directions?

 

GPT-4V's Input Modes

Text-only Inputs

GPT-4 논문에서 GPT-4(no vision) vs GPT-4V 볼 수 있다. 비슷함

Single Image-text Pair

image recognition, object localization, image captioning, visual question answering, visual dialogue, dense caption 등등 잘합니다.

Interleaved Image-text Inputs

프롬프트 잘하면 좋다

GPT-4V’s Working Modes and Prompting Techniques

얘도 프롬프팅 중요하다!

Following Text Instructions

Contrained prompting

output 형식 지정

Condition on good performance

One observation about LLMs is that LLMs don’t want to succeed.

LMM또한 마찬가지. 그러므로 사용자가 명시적으로 요청해야 성능 개선에 효과적이다. LLM에서 유용했던 step by step을 적용시켜보자.

Visual Pointing and Visual Referring Prompting

사람이 이미지를 보고 얘기할 때 pointing 하듯이 pointing은 상호작용의 기본적인 측면임.

GPT-4V는 이미지 위에 직접 그리는거에 강점을 가짐.

이렇게 사용 가능

Visual + Text Prompting

Integrated multimodal instruction inputs

선을 추가하는 패턴을 설명하기 위해 위 예시처럼 사진으로 함께 예시를 주는 방식으로 혼합해서 prompting이 가능합니다.

In-context Few-shot Learning

Zero shot 과 성능차이가 큰걸 볼 수 있음.

2-shot으로 했을 때 비로소 정답을 말해주는 모습을 볼 수 있다.

 

Vision-Language Capability

Image Description on Diverse Domains

아래 것들 single image-text pair로 프롬프트 describe the image 해주면 다 잘한다고 한다~

Celebrity recognition

Landmark recognition

Food recognition

맛있겠다..

Medical image understanding

Logo recognition

Scene understanding

Counterfactual examples

모순된거 물어봐도 잘 대답해준다.

 

Object Localization, Counting, and Dense Captioning

Spatial relationship understanding

사람과 물체 사이의 공간 관계를 이해 잘 함.

Object counting

보통 잘 세는데 오른쪽처럼 복잡하면 종종 실수함. 프롬프팅 잘 하면 잘한다고 함.

Object localization

CV에서 많이 하던 task. 물체 bounding box 만들어주는거

흠.. 근데 정확하진 않다. 정밀한 prompting 필요함.

Dense captioning

이미지에서 각 영역에 대한 자세한 설명을 생성해줌.

 

Multimodal Knowledge and Commonsense

Joke and meme

예시들이 좀 옛날 meme들 같다..

Science and knowledge

음~ 똑똑해

Multimodal commonsense

 

Scene Text, Table, Chart, and Document Reasoning

Scene text recognition

잘 읽는다

Visual math reasoning

사진으로 있는 수학 문제도 잘 이해한다.

Chart understanding and reasoning

차트 사진을 이해할 뿐만 아니라 파이썬 코드로도 작성 가능.

 

Table understanding and reasoning

 

Document understanding

얘도 어려운 문서같은 경우는 프롬프팅 필요하다 함.

 

Multilingual Multimodal Understanding

반가운 한글

Coding Capability with Vision

안정겨운 Latex 코드

 

 

Interaction with Humans: Visual Referring Prompting

특정 공간을 pointing 하는건 human-computer 상호작용에 필수적인 기능이다.

Understanding Pointing Inputs

dense captioning은 bounding box를 이용해서 localized된 설명을 만들지만 전체 이미지 context를 무시한 sub-optimal한 설명을 만드는 경우가 많습니다. Visual pointing을 이용하면 전체 이미지 context를 유지하면서 자연스럽게 관심 부분을 표시합니다.

이렇게 직접 위에 그려도 되고 text-format으로 표시도 가능하다.

 

Visual Referring Prompting

visual pointing을 잘 이해하는 GPT-4V를 보고 이를 활용하는 visual referring prompting을 살펴봅니다.

text를 활용하는 기존 prompting 대신에 이미지를 edit해 human-computer 상호작용을 보완하는 기법입니다.

Generate Pointing Outputs

Temporal and Video Understanding

GPT-4V는 이미지를 입력으로 사용하지만 이미지들의 시간적 순서와 비디오 content에 대한 이해도를 평가하는 것은 중요한 부분입니다. real-world event는 시간에 따라 전개되며 AI system의 능력은 이 동적 프로세스를 이해하는것이 실제 application에 매우 중요하기 때문입니다.

GPT-4V는 인간처럼 비디오 및 시간 순서를 잘 이해합니다.

Multi-image Sequencing

 

Video Understanding

Temporal ordering

시간 순서는 시간적 상식의 중요한 요소이고 GPT-4V의 평가에서 필수적인 부분입니다.

시간이 뒤섞인 이미지를 제공하고 인과관계 및 시간 진행을 식별하는 능력을 측정하는 부분을 포함합니다.

후도마끼인가?

 

Temporal anticipation

initial frame set이 주어졌을 때 미래 이벤트를 예측하는 능력을 입증합니다.

 

Visual Referring Prompting for Grounded Temporal Understanding

Grounded temporal understanding

이미지에 prompting 했던거 똑같이 해도 잘된다.

Abstract Visual Reasoning and Intelligence Quotient Test

GPT-4V에게 IQ test 시켜보기

Abstract Visual Stimuli

사람은 추상적이고 모호한 시각적 자극으로 의미를 추론 가능합니다. GPT-4V또한 가능하다는것을 보여줍니다.

탱그램
논문에서 사우스파크는 좀..

Discovery and Association of Parts and Objects

진짜 똑똑하네.. 탱그램 에서 머리 부분 찾아주고 사진 조합시켜주는 모습

Wechsler Adult Intelligence Scale

표준 IQ Test중 하나

그래서 IQ 몇나옴?

Raven’s Progressive Matrices

추상적 추론과 문제 해결 능력을 측정하기 위해 개발된 잘 알려진 비언어적 지능 테스트. 언어, 문화, 정규교육이 테스트 결과에 미치는 영향을 최소화되도록 설계되었습니다.

 

Emotional Quotient Test

Read Emotion from Facial Expressions

흠 근데 왜 예시가 흑백사진 뿐일까

Understand How Visual Content Arouses Emotions

사람이 사진을 보고 어떤 감정을 느낄까?를 파악해주는 task

 

Emotion Conditioned Output

인식한 감정을 원하는 감정에 맞게 적절한 텍스트를 생성해줌.(Based on the perceived emotions, GPT-4V effectively generates proper text outputs conditioned on the desired emotion.죄송합니다 해석을 잘 못하겠어요 ㅠ)

더 무섭게 또는 위안을 주는등등 입맛대로 가능합니다.

 

Emerging Application Highlights

GPT-4V로 뭘 할 수 있을까 알아보자.

원래 Visual Language 모델은 task마다 finetuning해야하지만 우린 그냥 잘 되니까!

Spot the Difference

이미지의 구성 요소 식별과 다른 영역은 잘 찾지만 자세한 설명은 종종 잘 못한다. 완벽하지 못하지만 밑에 얘기할 섹션에서 이런 다른점 찾기 능력이 유용하다는것을 보여줌.

 

Industry

Defect detection

제조업에서 CV는 결함 감지에 있어서 중요한 역활을 했음.

이런 누가봐도 결함이 잘 보이는 것들은 잘 해준다 하지만.

이런 흔하지 않은 제품이나 자세한 instruction이 없을 경우 정확하지 않거나 충분하지 않은 답변을 얻을 수 있습니다.

이런 경우에는

이렇게 참조 이미지를 포함해주고 instruction을 개선함으로써 좀더 나은 성능을 기대할 수 있습니다.

Safety inspection

 

Grocery checkout

셀프 계산대에서 수동으로 입력하는거 대신 이미지 인식을 통해 고객의 개입을 최소화 하는 곳에 GPT-4V의 잠재력을 볼 수 있습니다.

얘도 이렇게 사진 한장만 띡 주면 잘 못한다..

이렇게 카탈로그를 주면 잘한다!

 

Medical

완벽하지는 않지만 의사의 진단 프로세스를 단축시켜줄 잠재력을 보여준다.

 

Auto Insurance

보험 처리도 자동화 해보자!

Damage evaluation

자동차 손상을 평가해보자.

종종 수리비 얼마나올지 추측도 해준다 ㅋㅋ

 

Insurance reporting

위에 damage evaluation을 기반으로 번호판 model 등등 json 형태로 insurance reporting 작성을 시킨다.

 

Customized Captioner

Photo organization

잘 식별해서 captioning 해준다. 이를 저장하면 고도로 개인화된 이미지 검색이 가능해짐.

“Max lying between Sam and Emma” 를 검색한다면 이 사진이 나오게끔

 

Dense captioning w/ segmentation

 

Image Generation

generation 분야에도 기여할 수 있다.

Evaluation of generated images.

생성된 이미지를 text와 매칭시켜서 평가가 가능하다.

 

Prompt generation for image editing

이미지 편집에 사용하는 text prompt를 생성하거나 revise 가능.

 

Embodied Agent

Operating machine

 

Navigation

Redfin 가상 하우스 투어 활용

 

GUI Navigation

컴퓨터, 스마트폰 상호작용 및 탐색.

Web browsing

마파두부 레시피 검색과정 뒤는 생략한다

잘한다!

그 외에도 Online shopping, Notification understanding, Watching videos 등 컴퓨터, 스마트폰의 화면을 이용한 상호작용이 가능하다. 다만 아직 완벽하지 않은 모습이 종종 보임.

 

LMM Powered Agents

LLM에서 사용했던 방법 그대로 써보자!

Multimodal Plugins

bing image search 플러그인 사용하는 모습

Multimodal Chains

LLM에서 사용하던 ReAct를 이용하는 모습. 이 예시는 원 이미지만 넣으면 오답을 말하는 모습을 전의 예시를 통해 보여줬다.

 

Self-Reflection

 

Self-Consistency

 

Retrieval-Augmented LMMs

아까 봤던 장바구니 예시를 보면 그렇게 리트리벌 해와서 할 수 있다.

 

Conclusions

Summary and Conclusions

이 논문에서 GPT-4V를 조사하고 다양한 기능을 많이 밝히기 위해 노력했습니다.

Towards Future LMMs

현재는 이미지 태그 또는 이미지 텍스트 데이터 세트와 같이 잘 정리된 데이터에 의존하지만 추후에는 비디오, 오디오 및 기타 센서 데이터와 같은 다른 모달리티를 통합하고 온라인 웹 콘텐츠와 실제 물리적 환경을 포함한 다양한 소스에서 학습해 지속적인 자기 진화를 촉진하는 방향으로 발전할 것입니다.

Comments