ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • A Picture May Be Worth a Thousand Lives: An Interpretable Artificial Intelligence Strategy for Predictions of Suicide Risk from Social Media Images
    논문 2024. 1. 15. 19:40

    https://arxiv.org/abs/2302.09488

     

    A Picture May Be Worth a Thousand Lives: An Interpretable Artificial Intelligence Strategy for Predictions of Suicide Risk from

    The promising research on Artificial Intelligence usages in suicide prevention has principal gaps, including black box methodologies, inadequate outcome measures, and scarce research on non-verbal inputs, such as social media images (despite their populari

    arxiv.org

     

    (주)아이스크림아트에서 면접을 보고 그림에서 심리학 정보를 추출하는 것에 관심이 생겼다. 사실 HTP 등 심리학 검사를 위해 고안된 그림에 AI를 적용한 논문을 정리하고 싶었는데 당장에 찾은 논문 중 마땅한 것이 없어 대신 이 논문을 정리하게 되었다. 

     

    서론에서는 늘 그렇듯 '자살 예측'의 중요성에 대해 다룬 후, 선행 연구의 문제점에 대해 세 가지 방면에서 논했다. 첫째, '자살 예측' 점수가 AUC 기준 0.61에서 0.95로 높은 편이나, Ground Truth가 임상적으로 평가된 지표가 아닌 "life sucks, I want to kill myself"와 같이 SNS 사용자가 게시한 게시물 내용에 기반하여 정확도가 떨어진다. 둘째, 일반적으로 자연어 기반 AI 모델링에 관심을 둔 연구가 많고, 이미지 자체에 중점을 둔 모델링은 거의 진행되지 않았다. 셋째, 지금까지 진행된 연구에서는 자살을 예측하는 모델이 어떻게 기능하는지 해석이 불가능하였으므로, 해석 가능한 모델링에 대한 필요성이 제기되었다.

     

    데이터는 아마존 크라우드 소싱 플랫폼을 활용하여 수집되었다. (최근 데이터의 중요성이 부각되면서 데이터 수집 및 가공을 대신 해주는 기업들이 늘어나고 있다. 개인적으로 '가격'이 궁금해지는 대목이었다.) 자살 위험도는 CSSRS(Columbia Suicide Severity Rating Scale)를 통해 평가되었다. 정제된 데이터는 다음과 같다.

     

    해석 가능한 이미지 정보는 'CLIP(Contrastive Language-Image Pretraining)'을 이용하여 추출하였다. CLIP은 원래 Image Captioning을 위해 고안된 모델이다. 이 모델은 10개의 후보 캡션 중 이미지와 가장 잘 맞는 캡션에 높은 점수를 주는 방식으로 훈련되었으므로, 이미지와 가장 유사한 자연어 후보군을 선택하는 데 사용할 수 있다. 3개의 질문 군집, 9개의 질문 과제, 24개의 질문을 통해서 얻어진 9개의 벡터 표상을 이어 붙임으로, 각 이미지 당 하나의 벡터 표상을 생성하였으며, 이 벡터 표상을 활용해 로지스틱 회귀 분석을 실시하였다. 24개의 질문에 대한 3개 이미지의 벡터 값 예시는 아래와 같다. 아래에서 확인할 수 있듯이 각 과제에서의 벡터 값의 합은 1이다.

     

    로지스틱 회귀 분석은 결과의 편향을 막기 위해서 train/test dataset split 과정을 1000번 반복하며 얻어진 결과값을 평균 내는 방식으로 진행하였다. 결과적으로 0.720이라는 AUC 값을 얻어낼 수 있었다. 결과값의 비교를 위해서 일반적으로 사용되는 DL 모델인 ResNet을 이용한 AUC 값과 CLIP의 Image Encoder에서 얻어진 이미지 표상만을 이용한 AUC 값도 얻어보았다. 결과는 다음과 같다. 

     

    해당 분석에서 중요한 점은 24개의 질문을 통해 얻어진 벡터 표상을 분석에 이용하였으므로, 어떤 피쳐가 자살 예측에 유용한 정보인지를 확인할 수 있다는 것이다. FDR 교정을 이용한 t-test, 다중 로지스틱 회귀를 통해 24개의 피쳐 중 가장 중요한 8개의 피쳐를 골라냈다. 이를 통해 자살 위험이 높은 사람들은 부정 정서 점수가 높고 관계 점수가 낮다는 사실을 알 수 있었다.

     

    본 연구의 논의 및 한계점에 내 의견을 덧붙이면 다음과 같다. [첫째, Ground Truth로 자살 위험 평가 도구인 CSSRS를 활용한 것이 이 연구의 신뢰도를 매우 높여준다.] "나 죽고 싶어."라고 게재된 글 내용을 Ground Truth로 삼고, "나 죽고 싶어."라는 글 내용을 활용하여 AI 모델링을 진행한 후, 모델의 성능을 논하는 것은 어불성설이다. 데이터 그 자체에 정답이 들어있는데 제대로 된 학습이 되었다고 보기 힘들다. 한편, CSSRS의 경우 자기 평가 도구이므로, 전문가와의 면담을 통해 얻어진 자살 위험도 점수가 있다면 더 좋은 연구가 되었을 것이라고 본다. [둘째, 이미지 그 자체에 중점을 둔 모델링을 진행했다는 것이, 이 논문의 주요 공헌으로 인정되는 것은 바람직하지 않다고 본다.] Facebook이든 Instagram이든 이미지 자체만 올리는 경우는 거의 없으며, 몇 문장의 글을 덧붙이는 것이 일반적이다. 더 활용할 수 있는 데이터가 있는데도 불구하고, 일부 데이터만 대상으로 연구를 진행하는 것보다는 모든 데이터를 종합한 연구 결과를 선보였다면 더 좋았을 것이다. [셋째, 모델이 너무 단순하다.] CLIP을 통해 추출한 정보를 바탕으로 최종적으로 실시한 분석은 로지스틱 회귀 분석이었다. 비교 대상으로 내놓은 모델도 ResNet을 활용한 모델 혹은 CLIP에서 Image Encoding만을 활용한 모델이었다. 최근에는 Pretrained-Model을 넘어서 Large Lauguage Model이 연구의 주류를 이루고 있다. 로지스틱 회귀 분석 이상으로 더 복잡하지만 더 성능은 좋은 모델링을 할 여지가 많았다고 본다. 물론, 단순한 분석 방법을 사용했기에 추후 모델링의 토대로 활용될 여지는 높다. [넷째, '해석 가능한' 모델링을 통해 자살 위험에 대한 추가적인 정보를 얻을 수 있었다.] 이미지에서 8개의 과제를 통해 얻어진 벡터 표상을 로지스틱 회귀 분석에 활용했는데, 이를 통해 어떤 피쳐가 자살 위험에 큰 영향을 미치는지 확인할 수 있었다. 또한, 추후, 과제 및 질문 영역을 확장함으로 모델의 성능을 높일 수 있다고 본다. 

     

    논문을 읽기 전에는 막연하게 이미지에서 컴퓨터만 이해할 수 있는 벡터 표상을 추출하고, 해당 벡터 표상을 통해 유의미한 정보를 추출하는 것만 생각했는데, Top-Down Processing을 활용해서 사람이 이해할 수 있는 정보를 추출하도록 AI 모델링을 진행하는 것도 가능하다는 것을 새롭게 배웠다. 

     

     

    댓글

Designed by Tistory.