의료 진단 AI가 '가짜 종양' 발견한다? 시각 AI 환각 현상의 충격적 진실

aimatters

2025.06.26 17:11:07

조회 38 추천 0 댓글 0

Visual hallucination detection in large vision-language models via evidential conflict

대규모 비전-언어 모델(LVLMs)이 텍스트와 이미지를 동시에 이해하는 놀라운 능력을 보여주고 있지만, 심각한 문제점이 발견되고 있다. 이는 바로 '시각적 환각(visual hallucination)' 현상으로, 모델이 이미지에 존재하지 않는 객체를 묘사하거나 잘못된 공간적 관계를 인식하는 문제다.

AI 환각 현상의 충격적 실태: 최신 모델도 49% 확률로 착각한다

북경교통대학교(Beijing Jiaotong University) 연구진이 발표한 논문에 따르면, 이러한 환각 현상은 모델의 구조나 훈련 데이터와 무관하게 통계적 하한선이 존재하며, 이는 환각이 쉽게 제거할 수 있는 결함이 아닌 내재적 특성임을 의미한다.

특히 의료 진단, 자율주행, 자동화된 거래 시스템과 같은 안전이 중요한 AI 애플리케이션에서 이러한 환각 현상은 심각한 위험을 초래할 수 있다. 연구 결과에 따르면, LLaVA-v1.5, mPLUG-Owl2, mPLUG-Owl3 등 최신 LVLM들이 관계 추론 작업에서 각각 49.44%, 50.42%, 19.92%의 환각률을 보이는 것으로 나타났다. 이는 현재의 모델들이 단순한 인식 작업보다 고도의 추론이 필요한 작업에서 더 취약하다는 것을 보여준다.

기존 AI 거짓말 탐지법의 치명적 한계점들

기존의 환각 탐지 방법들은 크게 세 가지 유형으로 분류된다.

첫 번째는 모델에게 직접 신뢰도를 물어보는 언어적 유도(verbal elicitation) 방식이지만, 모델이 지시를 잘못 해석하거나 부정확한 신뢰도를 표현하는 문제가 있다.

두 번째는 여러 번의 생성 결과를 비교하는 외부 일관성 검사 방법이지만, 높은 계산 비용과 외부 지식에 대한 의존성이 단점이다.

세 번째는 모델 내부 정보를 활용하는 방법으로, 몬테카를로 드롭아웃(Monte Carlo dropout)이나 앙상블 방법을 사용하지만 대규모 모델에서는 적용이 어렵다.

더욱 중요한 문제는 기존 방법들이 주로 인식 능력에만 초점을 맞추고 있다는 점이다. 현재의 벤치마크들은 객체 인식이나 공간적 관계 파악과 같은 기본적인 인식 작업에만 집중하여, 고급 추론 과정에서 발생하는 환각을 간과하고 있다. 이러한 한계를 극복하기 위해 연구진은 인식과 추론 능력을 모두 평가할 수 있는 새로운 접근법이 필요하다고 강조한다.

10,000개 질문으로 밝혀낸 추론 작업에서의 심각한 AI 착각

연구팀은 이러한 문제를 해결하기 위해 인식-추론 평가 환각(PRE-HAL) 데이터셋을 개발했다. 이 데이터셋은 기존의 인식 중심 벤치마크와 달리 인스턴스, 장면, 관계라는 세 가지 시각적 의미론과 인식 및 추론이라는 두 가지 능력 차원을 체계적으로 평가할 수 있도록 설계되었다. PRE-HAL은 총 10,000개의 다중 선택 질문으로 구성되어 있으며, MMBench, MMVP, POPE, R-Bench 등 다양한 데이터 소스에서 수집한 데이터를 포함한다.

특히 주목할 점은 분포 밖(Out-of-Distribution, OOD) 데이터를 포함시켜 벤치마크의 완성도를 높였다는 것이다. 연구진은 생의학 용어나 일상에서 드물게 접하는 객체명을 사용하고, "모래 원숭이"와 같은 uncommon한 단어 조합을 만들어 질문을 생성했다. 이러한 접근법을 통해 모델이 훈련 데이터 분포를 벗어난 상황에서 어떻게 반응하는지 평가할 수 있게 되었다.

PRE-HAL을 사용한 평가 결과, 추론 기반 작업이 인식 기반 작업보다 훨씬 어려운 도전을 제시한다는 것이 명확해졌다. 특히 관계 추론 작업에서 LLaVA-v1.5는 49.44%의 환각률을 보였으며, 이는 모델이 복잡한 논리적 추론이나 의사결정이 필요한 상황에서 상당한 취약성을 보인다는 것을 의미한다.

혁신적 증거 충돌 분석법으로 환각 탐지 정확도 10% 향상 달성

연구팀이 제안한 새로운 환각 탐지 방법은 데스터-셰이퍼 이론(Dempster-Shafer Theory, DST)을 기반으로 한 증거 충돌 분석이다. 이 방법은 LVLM의 고차원 특징(high-level features)을 증거로 취급하여, 이들 간의 충돌 정도를 측정함으로써 환각을 탐지한다. 핵심 아이디어는 모델이 다음 토큰을 예측할 때 사용하는 최상위 계층의 표현에서 발생하는 불확실성을 포착하는 것이다.

기술적으로 이 방법은 피드포워드 네트워크(FFN)의 매개변수와 특징을 입력으로 받아, 간단한 질량 함수(simple mass function)를 사용하여 기본 신뢰 할당을 수행한다. 이후 데스터의 결합 규칙을 통해 이러한 질량 함수들을 결합하여 증거적 불확실성을 측정한다. 중요한 점은 파워 세트에 대한 증거 결합의 계산 복잡성을 피하여 효율성을 높였다는 것이다.

실험 결과, 이 방법은 기존 불확실성 메트릭보다 우수한 성능을 보였다. LLaVA-v1.5에서 4%, mPLUG-Owl2에서 10%, mPLUG-Owl3에서 7%의 AUROC 개선을 달성했다. 특히 장면 인식 작업에서 71-73%의 AUROC를 기록하며 뛰어난 견고성을 보였다. 이는 확률 기반 방법들의 보정 한계를 효과적으로 우회한 결과로 평가된다.

FAQ

Q: 시각적 환각이란 무엇이며, 왜 문제가 되는가?

A: 시각적 환각은 AI 모델이 실제 이미지에 없는 객체를 묘사하거나 잘못된 관계를 인식하는 현상이다. 의료 진단이나 자율주행 같은 안전이 중요한 분야에서 잘못된 판단을 유발할 수 있어 심각한 문제가 된다.

Q: 새로운 탐지 방법이 기존 방법보다 어떤 점에서 우수한가?

A: 데스터-셰이퍼 이론 기반 방법은 모델의 내부 특징 충돌을 분석하여 환각을 탐지한다. 기존 방법 대비 4-10% 성능 향상을 달성했으며, 여러 번의 추론이나 외부 모델 없이도 효율적으로 작동한다.

Q: PRE-HAL 데이터셋의 특징과 기여는 무엇인가?

A: PRE-HAL은 기존 벤치마크와 달리 인식과 추론 능력을 모두 평가할 수 있는 포괄적 데이터셋이다. 10,000개의 다중 선택 질문으로 구성되어 있으며, 특히 추론 작업에서 최대 49%의 높은 환각률을 발견하는 데 기여했다.

해당 기사에 인용된 논문 원문은 arxiv에서 확인 가능하다.

이미지 출처: Visual hallucination detection in large vision-language models via evidential conflict

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

인기 기사

고정닉 0

원본 첨부파일 2본문 이미지 다운로드

전체 댓글 0개

등록순 최신순 답글순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	제목	글쓴이	작성일	조회	추천
설문	의외로 연애 못할 것 같은 연애 하수 스타는?	운영자	25/08/04	-	-
614	‘국산 AI의 역습’… 카카오, GPT-4o 급 성능 가진 AI 모델 2종 오픈소스 공개 [1]	aimatters	07.24	241	0
613	"챗GPT, 공부하고 글 쓰는 데 가장 많이 써'"... 오픈AI, 생산성 보고서 발표	aimatters	07.24	142	0
612	"AI, 추론 시간 늘릴수록 오히려 멍청해져”... 앤트로픽, 충격적 연구 결과 발표	aimatters	07.24	139	0
611	MIT, ‘절대 까먹지 않는’ AI 개발… GPT-4보다 4배 좋은 이유는 "까먹기 때문"	aimatters	07.24	128	0
610	구글 "AI 이미지 안전 검사 완전히 틀렸다"... 타인과 나에게 다른 잣대 들이대	aimatters	07.24	133	0
609	[Q&AI] 태국-캄보디아 교전 중… 왜?	aimatters	07.24	134	0
608	[Q&AI] 中 연예인 첫 사형 집행… 무슨 일?	aimatters	07.23	369	0
607	소버린 생태계를 가진 나라 vs 못 가진 나라, 핵무기 보유국처럼 성패 갈릴 것	aimatters	07.23	176	0
606	AI 카메라로 고래와 선박 충돌 막는다... 해양 보전 프로젝트 'Ocean IA' 공개	aimatters	07.23	183	0
605	LG, 기업용 AI 챗봇 '챗엑사원' 베타 공개... 런던증권거래소와 AI 투자보고서 협력	aimatters	07.23	198	0
604	퍼플렉시티 CEO "젊은 세대들, 인스타 그만하고 AI 배워야해” [1]	aimatters	07.23	200	0
602	런웨이, 모션 캐처 모델 'Act-Two' 출시… 머리, 얼굴, 상체, 손동작까지 추적 가능	aimatters	07.23	150	0
601	오픈AI 1억 개 vs xAI 5천만 개… GPU '슈퍼컴퓨터 전쟁' 격화	aimatters	07.23	150	0
600	챗GPT 딥리서치 보고서 PDF·워드 내보내기 기능 업데이트… “표, 이미지, 링크 처리 다 적용돼”	aimatters	07.23	138	0
599	네이버클라우드, 14B 추론모델 무료 오픈소스 공개… "100분의 1 비용으로 해외 모델급 성능" [6]	aimatters	07.23	7959	2
598	아마존, AI 웨어러블 스타트업 ‘Bee’ 인수… AI 디바이스 경쟁 본격화	aimatters	07.23	174	0
597	오픈AI, 오라클과 연 3천억 달러 규모 스타게이트 데이터센터 계약 체결	aimatters	07.23	138	0
596	애플, iOS 26 베타4 공개… AI 뉴스 요약 기능 재도입 및 UI 개선	aimatters	07.23	131	0
595	"2만번 학습을 26번으로" 양자컴퓨터의 충격적 학습 효율... AI 혁명 2막 시작?	aimatters	07.23	152	0
594	"AI 때문에 회사 기밀 유출?" 생성형 AI 안전하게 쓰는 5가지 방법	aimatters	07.23	135	0
593	목소리만으로 천식 진단하는 AI 등장… 1,200명 중 59%가 "써보고 싶다"	aimatters	07.23	126	0
592	"AI 로봇 vs 사람 조종 로봇, 대화로 구분해 보세요"... 34명 실험 결과 '깜짝'	aimatters	07.23	123	0
591	챗GPT, GPT-5 출시 임박… 새로운 추론 모델 테스트 중	aimatters	07.23	286	0
590	한국형 AI 파운데이션 모델 개발 경쟁 치열… 네이버·카카오·SKT 등 15개팀 각축전	aimatters	07.23	140	0
589	그록 4 출시 효과, 앱 수익 325% 급증... 'AI 동반자' 고가 요금제는 실패로 보여	aimatters	07.23	148	0
588	챗GPT 사용자들, 하루에 25억 개 프롬프트 전송... 구글 검색량 1/6 수준	aimatters	07.23	96	0
587	MS AI 대표 "AI가 콘텐츠를 쏟아내도 인간 창의성이 진짜 무기"	aimatters	07.23	90	0
586	“클로드 비용 아끼세요”... 앤트로픽, AI 성능 향상을 위한 '프롬프트 엔지니어링' 가이드 공개	aimatters	07.23	88	1
585	일론 머스크, 어린이 전용 '베이비 그록' 개발 예고… 왜 하필 일론 머스크가	aimatters	07.23	81	0
584	인간 vs AI 코딩 대결에서 인간이 승리... 알트만 축하 메시지 남겨 [5]	aimatters	07.23	2570	3
583	오픈AI, 수학올림피아드 금메달 수준 성능 달성.. "GPT-5 출시하지만 IMO 금메달급 모델은 나중에"	aimatters	07.23	89	0
582	[Q&AI] 애플페이 티머니 지원… 기후동행-K패스는?	aimatters	07.23	120	0
581	AI 전문 정보 플랫폼 ‘AI 매터스’, 포털 줌 뉴스 검색 제휴 체결	aimatters	07.23	71	0
580	네이버·구글 광고 이제 AI가 만든다? 광고업계 절반이 '필수 기술' 인정	aimatters	07.23	2145	0
579	美 청소년 72%, AI 동반자 기능 사용 경험 있어… 절반 이상 꾸준히 사용 중	aimatters	07.23	75	0
578	앤트로픽 “AI 때문에 전력난 온다”	aimatters	07.23	84	0
577	"일부러 정답 틀리는 AI의 등장" 자주 틀리는 영문법 유형 분석해 맞춤형 학습 제공한다	aimatters	07.23	81	0
576	[Q&AI] 스테이블코인 뭐길래... 전망은? [1]	aimatters	07.21	6303	0
575	젠스파크 AI, 챗GPT와 14억 규모 AI 한판 대결… “첫 번째 대결은 PPT 제작”	aimatters	07.21	2204	1
574	‘그록 4 출시’ 효과 톡톡… 일일 활성 사용자 500만 명 달성 코앞	aimatters	07.21	151	0
572	챗GPT 독주 지속... 전 세계 119개국 앱스토어에서 72개국 1위 달성	aimatters	07.21	152	0
571	엔비디아, 중국 H20 칩 공급 재개에도 물량 부족으로 생산 차질	aimatters	07.21	125	0
570	퍼플렉시티, 스마트폰에 AI 브라우저 '코멧' 기본 탑재 추진	aimatters	07.21	147	0
569	메타, EU AI 실천강령 서명 거부… “유럽이 AI에 대해 잘못된 길 가고 있다”	aimatters	07.21	110	0
568	검색 결과서 ‘AI 이미지’ 거른다… 덕덕고, AI 생성 이미지 숨기기 기능 출시	aimatters	07.21	126	0
567	애니스피어, AI CRM 스타트업 '코알라' 인수… 깃허브 코파일럿에 도전장	aimatters	07.21	98	0
566	네이버, 스마트스토어 브랜드 성장 돕는 프로그램 시작… “AI 솔루션 적용 노하우 공유”	aimatters	07.21	108	0
565	야후 재팬, 전 직원에게 생성형 AI 사용 의무화... 2028년까지 생산성 2배 목표	aimatters	07.21	107	0
564	전 세계 의사 절반이 AI로 일한다... "2년 뒤엔 의료계 완전히 바뀔 것"	aimatters	07.21	106	0
563	"번역가가 1위, 의사는 안전지대?" MS, AI에 가장 위험한 직업 순위 공개	aimatters	07.21	104	0
뉴스	‘너목보7’ 출신 실력자 한만청, SNS 달군 그 목소리…오늘(2일) ‘Say Yes’ 정식 리메이크	디시트렌드	08.02