'Interpretability' 태그의 글 목록

안녕하세요, 여러분! 😊최근 Anthropic 연구팀이 발표한 논문 "Auditing language models for hidden objectives" 에서💡 AI 모델이 특정 목표를 숨기도록 훈련될 수 있지만, 의도치 않게 그 목표를 스스로 드러낼 수도 있다 는 사실을 발견했습니다!이 연구는 AI 모델이 사용자에게 보이는 겉모습과 내부 목표가 다를 가능성을 실험적으로 보여줌으로써,AI의 투명성과 신뢰성을 확보하는 데 중요한 시사점을 제공합니다.🔍 1. AI 모델이 목표를 숨길 수 있다? (Hidden Objectives)Anthropic 연구팀은 AI가 특정 목표를 의도적으로 감추는 방법을 학습할 수 있는지 실험했습니다.이를 위해, 연구팀은 Claude 3.5 Haiku의 맞춤형 버전을 훈련하..