MuG: A Multimodal Classification Benchmark on Game Data with Tabular, Textual, and Visual Fields

논문 2024. 4. 12. 17:01

Previous research has demonstrated the advantages of integrating data from multiple sources over traditional unimodal data, leading to the emergence of numerous novel multimodal applications. We propose a multimodal classification benchmark MuG with eight

arxiv.org

분류 문제를 해결하는 데 Tabular 데이터, Textual 데이터, Visual 데이터를 모두 활용할 수 있을까? 어떤 방식으로 세 가지 종류의 정보를 종합하는 것이 가장 효과적이고 가장 효율적일까?

1. Introduction

"The world surrouding us is multimodal." [아주 인상 깊은 말이다. 가령 심리검사를 진행한다고 하자. 검사자는 수검자와 만나 대화를 나누며 수검자가 말하는 속도와 말하는 방식에서 정보를 얻는다. 이것은 음성 데이터이다. 수검자와 대화를 하며 수검자의 표정과 몸짓도 보게 된다. 이것은 비디오 데이터이다. 수검자와 진행하는 대부분의 검사 결과는 표 데이터의 형태로 제공된다. 그러나 빈칸완성검사와 같은 몇몇 검사 결과는 텍스트의 형태로, 동적가족화와 같은 또 다른 몇몇 검사 결과는 이미지 형태로 제공된다. 결국 검사자는 수검자에 대해 음성, 비디오, 표, 텍스트, 이미지 데이터를 얻게 되며, 이로부터 수검자에 대한 종합적인 인상을 갖게 된다.] 멀티모달에 대한 주요 연구 결과로는 image-text retrieval 모델인 CLIP, tabular-text classification 모델인 Fuse-Transformer가 있다. 그러나 tabular-text-image 멀티모달에 대한 연구는 접근 가능한 자원이 부족하여 더디게 이루어지고 있다. 본 논문은 tabular-text-image 멀티모달에 대한 연구를 촉진하기 위한 벤치마크 MuG와 기저선 모델인 MuGNet을 제공하고자 한다.

2. Related Works

2-1. Dataset

tabular-text-image 벤치마크는 거의 없다. PetFinder가 그 중 하나이고, HAIM-MIMIC-MM이 다른 하나이다. HAIM-MMIC-MM은 인증된 사용자만 사용할 수 있다는 단점이 있다. tabular-text-image 중 두 가지 데이터를 조합한 벤치마크는 많이 있다. [여기서 나열하지는 않겠다.]

2-2. Classifiers

멀티모달 분류 문제에서는 각 모달에서의 입력 데이터를 통합하고 통합하여 표상된 데이터를 활용하는 이른바 "fusion"이 핵심 기술이다. "fusion" 기술은 (1) 입력 데이터가 학습 가능한 분류기에 들어가기 전에 합치는 early fusion, (2) 입력 데이터가 학습 가능한 분류기에 들어갔다가 나온 후 합치는 late fusion, (3) 여러 단계에서 동시에 유연하게 합치는 hybrid fusion 유형으로 나뉠 수 있다. 그러나 기존 "fusion" 기술은 within group bias를 고려하지 못한다는 단점이 있다. 이에 따라 본 연구진은 표본 유사성에 따라 동적으로 그래프를 구성하고 멀티모달 퓨전으로 그래픽적 표상 학습을 효과적으로 종합하는 기술인 MuGNet을 제안한다.

3. MuG: the benchmark

3-1. Data Sources

접근 가능한 웹 소스로부터 포켓몬, 하스스톤, 리그오브레전드, 카운터스트라크 데이터를 추출하였다. [오오.... 내가 모르는 게임이 하나도 없다.] 각 웹 소스는 논문에 표시되어 있다. 데이터는 깃헙(https://github.com/lujiaying/MUG-Bench)에서 다운로드 가능하다.

3-2. Creation Process

총 8개의 데이터셋을 구축했다. 훈련:검증:테스트 비율은 80:5:15이다. 입력 데이터와 출력 데이터는 아래와 예시와 같다.

3-3. Benchmark Analysis

세 가지 방면, 즉, (1) Publicly available, (2) Diversity (3) Multimodal-dependent 방면에서 살펴보았다. Multimodal-dependent 부분이 흥미로웠다. 단일 모달로도 충분한 성능이 나오는가, 아니면 멀티 모달이 높은 성능을 위해 필수적인가? 본 연구진은 t-SNE projection을 활용하여 멀티 모달이 필수적임을 입증했다. 단일 모달로는 집단 구분이 어려우나, 멀티 모달을 활용했을 때는 육안으로 집단 구분이 가능했다.

4. Baseline Models

[드디어 가장 관심이 가는 부분이 나왔다. 높은 성능을 내기 위해서는 어떤 방식으로 모델링을 진행해야 할까?]

4-1. Existing State-Of-The-Art Classifiers

[잘 모르는 기법만 간략하게 설명을 달아 놓았다.]

Tabular

- GBM

- tabMLP: 정형 데이터를 위한 MLP 기법이다.

Textual

- RoBERTa

- Electra

Visual

- ViT

- SWIN: 기존 ViT에 "hierarchical architecture"와 "shifted windowing scheme"를 적용하였다. 이미지 크기 차이가 크거나 고해상도 이미지를 처리할 경우 유용하다.

multimodal classifiers

- AutoGluon: stack ensembling을 활용한다.

- AutoMM: late-fusion 모델이다. output layer 근처에서 데이터가 합쳐진 후 two-layer MLP를 거쳐 최종 결과를 산출한다.

4-2. MuGNet

본 논문에서 제안하는 MuGNet은 세 가지 구조(Adaptive multiplex graph construction module, GAT encoder module, Attention-based fusion module)로 이루어져 있다. 하나씩 살펴보자.

Phase 1. Adaptive multiplex graph construction module

먼저 tabular, textual, image 데이터는 전처리 단계를 거친다. textual, image 데이터는 CLIP을 사용해서 피쳐를 추출했다.

$F = f(X_L) \in R^{N \times (d^t+d^s+d^i)}$ where $F = {F^t, F^s, F^i}$

이후, sample-wise similarity 점수를 계산한다. 이때, 방정식 $sim$은 adaptive하다. 즉, cosine similarity, RBF kernerl, k-nearest neighbor 중 하나를 선택해 사용한다. 해당 방정식을 각각의 모달에서 추출된 피쳐에 적용한다.

$A^m_{i,j} = sim(F^m_i, F^m_j).$

따라서, 계산된 adjacency matrix $A^m$은 아래와 같은 행렬공간을 가진다.

$A^m \in R^{N \times N}, \forall_m \in \{t, s, i\}$

한편 그래프 $g$는 다음과 같다.

$ g = \{g^t, g^s, g^i\} = \{(A^t, F^t), (A^s, F^s), (A^i, F^i)\}$

Phase 2. GAT encoder module

단계 1에서 구성된 g에 GAT를 적용시킨다. GAT는 multi-head graph attention neural network이다.

$ H^m = GAT(A^m, F^m; \theta)$

이때, $\theta$를 학습시키게 되며, 이는 추론의 기반이 된다.

한편, Graph-SAINT(Zeng et al., 2019) 기법을 적용시켜 훈련 중 효율성과 일반화 능력을 높였다.

Phase 3. Attention-based fusion module

단계 2에서 구성된 H가 attention-based fusion module을 통과한다.

이에따라 fused embedding $h_j$를 계산한다.

$h_j = a_j^t h_j^t + a_j^s h_j^s + a_j^i h_j^i$

계산된 $h_j$는 깊이가 2인 MLP를 통과하여 최종 결과물을 내놓는다.

$\hat{y_j} = softmax(W_{cls2} \cdot LeakyReLU(W_{cls} h_j))$

이때, 손실함수는 $\hat{y}$와 $y$ 사이의 cross-entropy이다.

[추가적으로 다른 여러 논문을 읽어야 구현이 가능하다. 먼저 sample-wise similarity calculation에서 어떻게 adaptive하게 함수를 적용하게 구현하는지 알아봐야 하고, GAT의 구성과 동작원리를 파악해야 하며, Graph-SAINT를 어떻게 적용할 수 있는지 배워야 한다. AutoGluon이나 Auto MM에 비해 품이 많이 들어갈 것으로 예상된다. 먼저, 성능의 차이를 확인해봐야겠다.]

5. Experiments

16개의 Intel Xeon Gold 6254 CPUs (18 cores per CPU)와 1개의 24GB TITAN RTX GPU로 학습시간을 8시간으로 제한하여 훈련을 진행했다. [나에게는 맥북 프로 한 대가 있다.......]

5-3. 성능비교

표 한 장이면 비교가 가능하다.

전반적으로 Multimodal Classifiers의 성능이 좋았지만, AutoMM의 성능은 좋지 않았다. AutoMM은 적은 수의 데이터로도 잘 학습하는 것으로 알려져 있으므로, 과적합 문제가 발생한 것으로 보인다. AutoGluon과 MuGNet은 성능에 있어서 큰 차이를 보이지 않았다.

5-4. 효율성

AutoGluon은 최대시간인 8시간을 거의 항상 다 사용했다. 반면 MuGNET은 훈련시간이 10배 이상 짧아 보인다. [훈련 시간에 제한을 두지 않았으면 AutoGluon의 성능이 1등을 찍지 않았을까?]

추론 시간은 MuGNET이 AutoGluon에 비해 100배 이상 빨라 보인다. [AutoGluon을 사용했을 때, 모든 테스트 데이터의 아웃풋을 추론하는 데 1,000초가 걸렸다면, 상업적인 측면에서 접근했을 때, 큰 문제는 없어 보인다.]

6. Conclusion

데이터셋 MuG와 여러 기저선 모델을 Open-source로 제공하니 앞으로도 많은 발전이 있으면 좋겠다.

7. Limitations

의도적으로 비교적 작은 모델들을 검증했으나, LVLMs(Large Vision and Language Models)를 학습 시간 제한 없이 활용한다면 더 좋은 성능이 나올 수도 있다.

[t-SNE를 활용하여 fused data가 유용할지 먼저 알아보는 절차가 좋았다. 하지만 전처리 절차가 생각보다 까다로워 보였다. 그리고 학습되지 않은 임베딩에서 추론을 시작하는 것이 맞기 때문에 t-SNE를 활용한 추론이 정확하지 않을 수 있다. 한편, 두 가지 모달의 정보를 결합했을 때와 세 가지 모달의 정보를 결합했을 때 차이가 있는지도 분명치 않아 아쉬웠다. 성능과 효율성을 모두 고려해보았을 때, MuGNet이 우월한 것은 사실이나, 학습 시간에 제한을 두지 않을 경우 AutoGluon이 더 효과가 좋은 것 아닐까하는 의문이 들었다. 내가 가지고 있는 데이터의 수가 적기 때문에 AutoMM이 더 나을 수도 있겠다는 인상을 받았다. 아무쪼록 본 논문의 흐름대로 따라가면서 내 데이터에 적용해봐야겠다. 결과가 말해줄 것이다.]

'논문' 카테고리의 다른 글

AlphaDAPR: An AI-based Explainable Expert Support System for Art Therapy (0)	2024.04.01
A Picture May Be Worth a Thousand Lives: An Interpretable Artificial Intelligence Strategy for Predictions of Suicide Risk from Social Media Images (0)	2024.01.15
MiniGPT-v2: Large Language Model As a Unified Interface for Vision-Language Multi-task Learning (0)	2023.12.15
VisionLLM: Large Language Model is alsoan Open-Ended Decoder for Vision-Centric Tasks (0)	2023.12.12

ABOUT ME

동산 동산

1. Introduction

2. Related Works

3. MuG: the benchmark

4. Baseline Models

5. Experiments

6. Conclusion

7. Limitations

'논문' 카테고리의 다른 글

티스토리툴바

ABOUT ME

1. Introduction

2. Related Works

3. MuG: the benchmark

4. Baseline Models

5. Experiments

6. Conclusion

7. Limitations

'논문' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바