🤖 왜 AI는 모르면 "모른다"고 하지 않을까?

— Anthropic의 연구로 살펴본 LLM의 ‘환각’ 내부 구조

📌 TL;DR (한줄 요약)
AI가 정보를 ‘모른다’고 하지 않고 그럴듯하게 ‘지어내는 이유’를 설명할 수 있는 뇌 회로 같은 메커니즘이 발견됐다.

😩 "AI야, 모르면 그냥 모른다고 해!"

AI를 써본 사람이라면 누구나 한 번쯤 겪었을 겁니다.
"이게 맞아?" 싶은 내용을 아주 그럴듯하게 답변하는 AI의 환각(hallucination) 문제.

질문에 확신 있게 답하지만, 정작 그 내용은 훈련 데이터에 없는 정보,
혹은 아예 존재하지 않는 정보일 수 있습니다.

예를 들어,

"Michael Batkin이라는 농구선수는 어떤 팀 소속이야?"
AI는 없던 인물을 마치 실존 인물처럼 설명하며, 거짓 정보를 생성합니다.

왜 그럴까요? 왜 "모릅니다", "정보가 부족합니다" 라고 말하지 못할까요?

🧠 Claude의 '뇌 회로'를 들여다보다

Anthropic의 최신 연구는 이러한 현상을 해결하기 위해,
자체 AI 모델 Claude 내부의 '뉴런 회로'를 시각화하는 실험을 진행했습니다.

여기서 핵심 개념은 바로 "특징(feature)"과 "회로(circuit)"입니다.

특징(feature): 특정 개념이나 단어가 등장했을 때 활성화되는 뉴런 묶음
(예: ‘Michael Jordan’, ‘프로그래밍 오류’ 등)
회로(circuit): Claude가 ‘어떻게’ 반응할지를 결정하는 경로

이 연구는 Claude가 질문을 받았을 때,
"답할지 말지"를 판단하는 일종의 **‘답변 제어 회로’**가 존재함을 밝혀냈습니다.

🟢 ‘모른다’는 회로는 기본적으로 ON 상태

Claude는 기본적으로 ‘모르겠다’는 회로가 켜져 있는 상태라고 합니다.
즉, 아무거나 물어보면 처음엔 “모르겠어”라는 생각을 하게 되어 있다는 뜻입니다.

하지만, Claude가 질문 속 단어를 "익숙한 개체(known entity)"로 인식하면,

"이건 아는 거야!"
라고 생각하며 '모르겠다' 회로를 끄고, 답변을 시도합니다.

예:

"Michael Jordan은 누구야?" → 잘 알려진 인물 → 회로 OFF → 답변 OK
"Michael Batkin은 누구야?" → 낯선 이름 → 회로 ON → 답변 회피

❌ 그런데 이 회로가 가끔 ‘잘못 작동’합니다

Anthropic 연구진은 테스트를 통해 Claude에게 일부러 낯선 이름을 익숙하게 인식시키는 실험을 했습니다.

결과: 존재하지 않는 인물임에도 불구하고 자신감 있게 설명함

왜 그럴까요?

Claude 내부에 있는 "익숙한 개체"를 감지하는 회로가
잘못 활성화되면, Claude는 마치 그걸 아는 것처럼 오해하고 답변을 생성합니다.

예:

"Andrej Karpathy가 쓴 논문 하나만 알려줘"
Claude: "ImageNet Classification with Deep Convolutional Neural Networks"
→ ❌ 사실은 Geoffrey Hinton의 논문! Claude는 착각한 것.

🧩 Claude의 ‘기억’은 인지와 회상(Recall)이 다르다

Claude는 이름을 기억한다고 해서, 그에 대한 구체적인 정보까지 기억하는 것은 아닙니다.
이름만 알더라도, 관련 정보를 잘못 짜 맞춰서 '지어내는' 일이 벌어질 수 있는 것이죠.

Anthropic은 이를 통해 다음과 같은 결론을 내렸습니다:

Claude의 일부 환각은, ‘답하면 안 되는 질문’에 대해, 잘못 답하려고 시도할 때 발생한다.

이 회로가 좀 더 정밀하게 작동하면, Claude는 진짜 아는 것과 모르는 것을 더 잘 구분할 수 있을 것입니다.

🔬 연구는 아직 ‘빙산의 일각’

이 실험을 통해 Claude 내부의 판단 과정을 일부 밝혀냈지만,
Anthropic도 "전체 뉴런의 극히 일부만 분석했다"고 고백합니다.

짧은 질문 하나 분석하는 데만 몇 시간이 걸렸고
전체 모델의 계산 흐름 중 일부만 추적 가능했다고 합니다

💡 왜 이 연구가 중요한가?

AI의 ‘환각’ 문제는 단순한 기술적 오류가 아니라,
모델 내부 회로의 구조적 문제일 수 있습니다.
이 회로를 이해하고 보정하거나 학습을 개선하면,
앞으로 더 정확하고 책임감 있는 AI가 가능해질 수 있습니다.

🧠 마무리 요약

구분	설명
🤯 문제	AI가 모르면 ‘모른다’고 하지 않고, 그럴듯하게 지어냄
🔍 원인	내부 ‘모른다’ 회로가 잘못 작동하거나, 잘못 끔
🧪 실험	익숙한 이름처럼 보이면 AI가 자신감 있게 헛소리함
🔧 시사점	더 정교한 회로 제어 및 인식 체계가 필요
🔭 미래 방향	AI가 진짜 모를 땐 모른다고 말할 수 있도록 만드는 연구의 시작점

728x90

저작자표시 동일조건

'knowledge🧠 > AI🤖' 카테고리의 다른 글

🚗 Waymo 자율주행차, 진짜 사람이 운전하는 것보다 안전할까? (0)	2025.04.03
🎥 Runway, 차세대 AI 비디오 생성 모델 ‘Gen-4’ 공개 – 캐릭터 일관성과 앵글 전환까지 대폭 개선! (4)	2025.04.02
😈 프롬프트 인젝션 공격, 이제는 알고리즘이 직접 짠다?! (3)	2025.03.30
🖼️ “말하면 그림이 그려진다?” – GPT-4o의 이미지 생성 기능, 어디까지 왔을까? (7)	2025.03.28
🎮 게임도 하고 AI도 쓰고? 엔비디아의 신기한 실험, G-Assist 🧠✨ (1)	2025.03.26

— Anthropic의 연구로 살펴본 LLM의 ‘환각’ 내부 구조

😩 "AI야, 모르면 그냥 모른다고 해!"

🧠 Claude의 '뇌 회로'를 들여다보다

🟢 ‘모른다’는 회로는 기본적으로 ON 상태

❌ 그런데 이 회로가 가끔 ‘잘못 작동’합니다

🧩 Claude의 ‘기억’은 인지와 회상(Recall)이 다르다

🔬 연구는 아직 ‘빙산의 일각’

💡 왜 이 연구가 중요한가?

🧠 마무리 요약

'knowledge🧠 > AI🤖' 카테고리의 다른 글

티스토리툴바