— Anthropic의 연구로 살펴본 LLM의 ‘환각’ 내부 구조
📌 TL;DR (한줄 요약)
AI가 정보를 ‘모른다’고 하지 않고 그럴듯하게 ‘지어내는 이유’를 설명할 수 있는 뇌 회로 같은 메커니즘이 발견됐다.
😩 "AI야, 모르면 그냥 모른다고 해!"
AI를 써본 사람이라면 누구나 한 번쯤 겪었을 겁니다.
"이게 맞아?" 싶은 내용을 아주 그럴듯하게 답변하는 AI의 환각(hallucination) 문제.
질문에 확신 있게 답하지만, 정작 그 내용은 훈련 데이터에 없는 정보,
혹은 아예 존재하지 않는 정보일 수 있습니다.
예를 들어,
"Michael Batkin이라는 농구선수는 어떤 팀 소속이야?"
AI는 없던 인물을 마치 실존 인물처럼 설명하며, 거짓 정보를 생성합니다.
왜 그럴까요? 왜 "모릅니다", "정보가 부족합니다" 라고 말하지 못할까요?
🧠 Claude의 '뇌 회로'를 들여다보다
Anthropic의 최신 연구는 이러한 현상을 해결하기 위해,
자체 AI 모델 Claude 내부의 '뉴런 회로'를 시각화하는 실험을 진행했습니다.
여기서 핵심 개념은 바로 "특징(feature)"과 "회로(circuit)"입니다.
- 특징(feature): 특정 개념이나 단어가 등장했을 때 활성화되는 뉴런 묶음
(예: ‘Michael Jordan’, ‘프로그래밍 오류’ 등) - 회로(circuit): Claude가 ‘어떻게’ 반응할지를 결정하는 경로
이 연구는 Claude가 질문을 받았을 때,
"답할지 말지"를 판단하는 일종의 **‘답변 제어 회로’**가 존재함을 밝혀냈습니다.
🟢 ‘모른다’는 회로는 기본적으로 ON 상태
Claude는 기본적으로 ‘모르겠다’는 회로가 켜져 있는 상태라고 합니다.
즉, 아무거나 물어보면 처음엔 “모르겠어”라는 생각을 하게 되어 있다는 뜻입니다.
하지만, Claude가 질문 속 단어를 "익숙한 개체(known entity)"로 인식하면,
"이건 아는 거야!"
라고 생각하며 '모르겠다' 회로를 끄고, 답변을 시도합니다.
예:
- "Michael Jordan은 누구야?" → 잘 알려진 인물 → 회로 OFF → 답변 OK
- "Michael Batkin은 누구야?" → 낯선 이름 → 회로 ON → 답변 회피
❌ 그런데 이 회로가 가끔 ‘잘못 작동’합니다
Anthropic 연구진은 테스트를 통해 Claude에게 일부러 낯선 이름을 익숙하게 인식시키는 실험을 했습니다.
- 결과: 존재하지 않는 인물임에도 불구하고 자신감 있게 설명함
왜 그럴까요?
Claude 내부에 있는 "익숙한 개체"를 감지하는 회로가
잘못 활성화되면, Claude는 마치 그걸 아는 것처럼 오해하고 답변을 생성합니다.
예:
"Andrej Karpathy가 쓴 논문 하나만 알려줘"
Claude: "ImageNet Classification with Deep Convolutional Neural Networks"
→ ❌ 사실은 Geoffrey Hinton의 논문! Claude는 착각한 것.
🧩 Claude의 ‘기억’은 인지와 회상(Recall)이 다르다
Claude는 이름을 기억한다고 해서, 그에 대한 구체적인 정보까지 기억하는 것은 아닙니다.
이름만 알더라도, 관련 정보를 잘못 짜 맞춰서 '지어내는' 일이 벌어질 수 있는 것이죠.
Anthropic은 이를 통해 다음과 같은 결론을 내렸습니다:
Claude의 일부 환각은, ‘답하면 안 되는 질문’에 대해, 잘못 답하려고 시도할 때 발생한다.
이 회로가 좀 더 정밀하게 작동하면, Claude는 진짜 아는 것과 모르는 것을 더 잘 구분할 수 있을 것입니다.
🔬 연구는 아직 ‘빙산의 일각’
이 실험을 통해 Claude 내부의 판단 과정을 일부 밝혀냈지만,
Anthropic도 "전체 뉴런의 극히 일부만 분석했다"고 고백합니다.
- 짧은 질문 하나 분석하는 데만 몇 시간이 걸렸고
- 전체 모델의 계산 흐름 중 일부만 추적 가능했다고 합니다
💡 왜 이 연구가 중요한가?
- AI의 ‘환각’ 문제는 단순한 기술적 오류가 아니라,
모델 내부 회로의 구조적 문제일 수 있습니다. - 이 회로를 이해하고 보정하거나 학습을 개선하면,
앞으로 더 정확하고 책임감 있는 AI가 가능해질 수 있습니다.
🧠 마무리 요약
구분 | 설명 |
🤯 문제 | AI가 모르면 ‘모른다’고 하지 않고, 그럴듯하게 지어냄 |
🔍 원인 | 내부 ‘모른다’ 회로가 잘못 작동하거나, 잘못 끔 |
🧪 실험 | 익숙한 이름처럼 보이면 AI가 자신감 있게 헛소리함 |
🔧 시사점 | 더 정교한 회로 제어 및 인식 체계가 필요 |
🔭 미래 방향 | AI가 진짜 모를 땐 모른다고 말할 수 있도록 만드는 연구의 시작점 |
'knowledge🧠 > AI🤖' 카테고리의 다른 글
🚗 Waymo 자율주행차, 진짜 사람이 운전하는 것보다 안전할까? (0) | 2025.04.03 |
---|---|
🎥 Runway, 차세대 AI 비디오 생성 모델 ‘Gen-4’ 공개 – 캐릭터 일관성과 앵글 전환까지 대폭 개선! (4) | 2025.04.02 |
😈 프롬프트 인젝션 공격, 이제는 알고리즘이 직접 짠다?! (3) | 2025.03.30 |
🖼️ “말하면 그림이 그려진다?” – GPT-4o의 이미지 생성 기능, 어디까지 왔을까? (7) | 2025.03.28 |
🎮 게임도 하고 AI도 쓰고? 엔비디아의 신기한 실험, G-Assist 🧠✨ (1) | 2025.03.26 |