EZI 기술 블로그 JU

multimodal learning architecture 레퍼런스 본문

Modeling/deep learning

multimodal learning architecture 레퍼런스

eziju 2023. 3. 21. 09:52

실내측위와 조금이라도 관련있는 multimodal learning architecture에 대한 레퍼런스 다이어그램들을 수집 중이다. 본문의 예시들은 내가 현재 참고할 만한 구조들을 찾느라 도메인이 다르긴 하다.

 

multimodal learning은 주로 sentiment analysis등 정성 분석 분야를 정량화하고 분석하는 과정에서 많이 보인다. 인간이 다양한 채널을 통해 정보를 받아들이고 감정을 느끼듯이 unimodal로는 분석이 어려운 분야에 적용하는 것이다. 여기서 채널은 multimodal learning 쪽에서는 modality로 주로 표현된다.

이를 실내 측위에 적용해 보려는데 현재 가진 의문은 이렇다.

1. 일반적으로 multimodal learning을 설명할 때 가장 쉽게는 데이터의 차원이 달라야 한다고 할 수 있는데, input 데이터는 공유하면서 각각의 예측 목적이 달라 중단에서 차원이 서로 달라지는 별개의 모델을 마지막 하단에서 다시 fusion하면 이는 multimodal learning으로 볼 수 있는가?

 2. 각각의 목적에 의해 서로 다른 loss까지 적용하려는데, loss가 달라지는 것 자체는 multimodal을 구현하는 과정에서 꽤 자주 적용되는 것 같다. 하지만 각각의 loss에 의해 훈련한 결과를 마지막에 concat하여 다시 fc 등을 태워 하나의 통합된 결과를 예측하기 위해 fusion되는 구조라면 (최종적으로 어떻게 설계하느냐에 따라 달라지겠지만) 개념적으로 전이학습에 가깝지 이를 multimodal learning으로 볼 수 있을지가 또 다른 의문이다. 또한, 자세히 읽어보지는 않았지만 하나의 loss function을 사용하는 것이 멀티모달 학습에서 더 나은 성능을 보였다는 연구 결과도 보인다. (Training on a single loss function improves multimodal AI - https://www.deeplearning.ai/the-batch/training-on-a-single-loss-function-improves-multimodal-ai/)

모델 구조가 복잡해지면서 머리도 덩달아 복잡해지는 중.. 떠오르는 아이디어가 많은 것도 좋지만 가지치기가 필요한 시점인 듯 하다. 

https://www.researchgate.net/figure/Neural-network-architecture-for-multimodal-representation-learning-with-self-supervision_fig2_335141438

 

https://github.com/firojalam/multimodal_social_media

 

https://link.springer.com/article/10.1007/s00138-021-01249-8

 

반응형

'Modeling > deep learning' 카테고리의 다른 글

Diffusion model  (0) 2023.03.24
Multimodal learning  (1) 2023.03.15