전체 글
-
MuG: A Multimodal Classification Benchmark on Game Data with Tabular, Textual, and Visual Fields논문 2024. 4. 12. 17:01
https://arxiv.org/abs/2302.02978 MuG: A Multimodal Classification Benchmark on Game Data with Tabular, Textual, and Visual Fields Previous research has demonstrated the advantages of integrating data from multiple sources over traditional unimodal data, leading to the emergence of numerous novel multimodal applications. We propose a multimodal classification benchmark MuG with eight arxiv.org 분류..
-
AlphaDAPR: An AI-based Explainable Expert Support System for Art Therapy논문 2024. 4. 1. 09:39
https://dl.acm.org/doi/abs/10.1145/3581641.3584087 AlphaDAPR: An AI-based Explainable Expert Support System for Art Therapy | Proceedings of the 28th International Conference on I ABSTRACT Sketch-based drawing assessments in art therapy are widely used to understand individuals’ cognitive and psychological states, such as cognitive impairment or mental disorders. Along with self-report measures ..
-
A Picture May Be Worth a Thousand Lives: An Interpretable Artificial Intelligence Strategy for Predictions of Suicide Risk from Social Media Images논문 2024. 1. 15. 19:40
https://arxiv.org/abs/2302.09488 A Picture May Be Worth a Thousand Lives: An Interpretable Artificial Intelligence Strategy for Predictions of Suicide Risk from The promising research on Artificial Intelligence usages in suicide prevention has principal gaps, including black box methodologies, inadequate outcome measures, and scarce research on non-verbal inputs, such as social media images (des..
-
MiniGPT-v2: Large Language Model As a Unified Interface for Vision-Language Multi-task Learning논문 2023. 12. 15. 23:03
https://arxiv.org/abs/2310.09478 MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning Large language models have shown their remarkable capabilities as a general interface for various language-related applications. Motivated by this, we target to build a unified interface for completing many vision-language tasks including image description arxiv.org In..
-
VisionLLM: Large Language Model is alsoan Open-Ended Decoder for Vision-Centric Tasks논문 2023. 12. 12. 21:12
https://arxiv.org/abs/2305.11175 VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks Large language models (LLMs) have notably accelerated progress towards artificial general intelligence (AGI), with their impressive zero-shot capacity for user-tailored tasks, endowing them with immense potential across a range of applications. However, in arxiv.org 이 업계의 최신 기술..
-
첫 번째 과제: Crawling(2)개인 프로젝트 A 2023. 12. 10. 22:00
오늘은 데이터 크롤링을 하다가 마주친 몇몇 문제들에 대해 포스팅하고자 한다. 매일 개인 프로젝트에 시간을 조금씩 내보려 했지만 취업준비가 생각보다 녹록지 않아서 시간을 거의 내지 못했다. 그래도 멈추는 것보다는 움직이는 게 낫지 않은가? 첫 번째 어려움은 깔끔하게 원하는 텍스트를 가져올 수 없다는 점이었다. soup.text를 통해 내용을 가져오면 등 특수하게 적용되어야 할 기능들이 누락된 채로 텍스트가 반환되었다. 그렇다면 원하는 부분을 찾아서 가져온 후 후처리를 해줘야 하는데, 부모자식 관계가 복잡하게 얽혀있어서 원하는 부분을 찾기 위한 탐색 최솟값을 찾는데 애를 먹었다. 다행히 논리적인 연산 과정을 찾아 해결했다. 두 번째 어려움은 Bot Detection이었다. 최적화를 하고 난 뒤 일정 시간이 ..
-
NOISE기타 2023. 11. 7. 00:08
Title: NOISE Writer: Daniel Kahneman, Olivier Sibony, Cass R. Sunstein I went on a trip to Japan, and in the bookstore I found this book. As I couldn't read Chinese characters well, I rather chose this English book. There, I just skimmed over this book, but still, I could find out that this book is amazing. This book distinguishes noise from bias. Highly biased means that the average score devia..
-
백준 6086번: 최대 유량 #파이썬백준 2023. 10. 23. 22:18
구글에서 해당 문제를 검색해보면 대부분 에드몬드 카프 알고리즘에 대해 설명하고 있습니다. 하지만 에드몬드 카프 알고리즘으로 해당 문제를 풀려고 하면 상당히 혼란스러운데, 사실 에드몬드 카프 알고리즘이 최적해가 아니기 때문입니다. 게다가 파이썬으로 설명한 사람도 매우 적어서 Java나 C++ 코드가 어려운 사람은 도움을 받기 힘들어 보였습니다. 그래서 작성하는 풀이법입니다. 아이디어 1. 직렬 연결 시 유량의 최소값만큼 흘려보낼 수 있다. 2. 병렬 연결 시 유량의 합만큼 흘려보낼 수 있다. A에서 Z에 도달할 수 있는 방법들을 찾고, 각 방법에서 흘려보낼 수 있는 유량을 찾고, 각 유량만큼 계속 더한 값이 정답이다. 예제 제공된 예제를 조금만 변경해봅시다. (A B 3 --> A B 5, B Z 6 ->..