본문 바로가기
일반IT/AI

Claude Fable 5 시스템 프롬프트 유출 주장 분석: AI 서비스의 내부 운영 매뉴얼이 드러나다

by gasbugs 2026. 6. 12.
반응형

최근 GitHub에 Claude Fable 5의 시스템 프롬프트로 주장되는 문서가 공개되면서 AI 커뮤니티에서 관심을 받고 있습니다. 해당 문서는 단순히 “AI가 어떤 말투로 답변해야 하는가” 정도의 짧은 지침이 아니라, Claude가 제품 정보, 안전 정책, 검색, 파일 생성, 외부 도구, MCP 앱, 아티팩트, 저작권, 인용, 사용자 웰빙까지 어떻게 처리해야 하는지를 담은 거대한 운영 매뉴얼에 가깝습니다.

https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/CLAUDE-FABLE-5.md

 

다만 먼저 짚고 넘어가야 할 점이 있습니다. GitHub에 올라온 문서가 실제 Anthropic 내부 시스템 프롬프트 원본인지 여부는 공식적으로 확인된 것은 아닙니다. 따라서 이 글에서는 “유출된 시스템 프롬프트”라고 단정하기보다는 “Claude Fable 5 시스템 프롬프트로 주장되는 공개 문서”라는 관점에서 분석하는 것이 더 정확합니다.

 

3줄 요약

  • 공개된 문서는 단순한 성격 설정이 아니라 Claude 제품군의 동작 정책, 안전장치, 도구 사용법, 파일 처리 규칙까지 포함한 운영 지침에 가깝습니다.
  • 특히 Fable 5와 Mythos 5의 관계, 고위험 분야에서 Opus 4.8로 fallback하는 구조, MCP와 Artifacts 중심의 에이전트형 사용 방식이 눈에 띕니다.
  • 시스템 프롬프트가 유출되면 모델의 내부 행동 규칙을 추정할 수 있지만, 실제 보안은 프롬프트보다 서버 측 분류기, 권한 통제, 도구 격리, 로깅, 정책 집행 구조에 더 크게 의존합니다.

 

 

문서에는 어떤 내용이 들어 있나

가장 먼저 보이는 것은 제품 정보입니다. 문서는 Claude Fable 5를 Claude 5 계열의 일반 공개 고성능 모델로 설명하고, Mythos 5와 같은 기반 모델을 공유하지만 안전장치 적용 여부에 차이가 있다고 설명합니다. 이는 Anthropic 공식 발표와도 큰 틀에서 일치합니다. Fable 5는 일반 사용자를 위한 모델이고, Mythos 5는 사이버보안이나 생명과학처럼 이중용도 위험이 큰 영역에서 제한적으로 제공되는 모델이라는 구분입니다.

 

그다음에는 거절 정책과 안전 정책이 나옵니다. 문서는 Claude가 유해 물질, 무기, 악성코드, 취약점 악용, 불법 약물 사용, 자해, 섭식장애, 위험한 의료 정보 등에 어떻게 대응해야 하는지를 자세히 설명합니다. 흥미로운 점은 “무조건 거절”만 있는 것이 아니라, 생명을 보호하거나 피해를 줄이는 정보는 제공할 수 있도록 세분화되어 있다는 점입니다. 즉, 안전 정책이 단순 차단이 아니라 위험 수준과 맥락을 판단하는 구조로 설계되어 있습니다.

 

법률과 금융 조언에 대한 지침도 포함되어 있습니다. Claude는 변호사나 금융 전문가처럼 확정적인 판단을 내려서는 안 되고, 사용자가 스스로 판단할 수 있도록 사실 정보를 제공하는 방식으로 답변해야 한다고 안내합니다. 이는 AI가 전문 조언 영역에서 과도한 확신을 보이지 않도록 막는 장치입니다.

 

톤과 형식에 대한 지침도 상당히 구체적입니다. Claude는 따뜻하고 친절한 어조를 유지하되, 사용자의 판단 능력을 낮춰 보거나 무조건 동조해서는 안 됩니다. 또한 답변에서 과도한 목록, 굵은 글씨, 헤더 사용을 피하고 자연스러운 문장 중심으로 답변하라는 규칙이 들어 있습니다. 단순히 “정중하게 답하라”가 아니라, 사용자가 AI에게 과하게 의존하지 않도록 거리감을 유지하라는 방향도 보입니다.

 

사용자 웰빙 관련 지침은 특히 길고 세밀합니다. 자해, 정신건강, 망상적 믿음, 섭식장애, 자기비난, 중독, 과의존 등을 다룰 때 Claude가 어떤 표현을 피해야 하는지, 어떤 식으로 전문가나 주변 사람의 도움을 권해야 하는지 안내합니다. 이는 최근 AI 챗봇이 정서적 의존이나 심리적 강화 문제를 일으킬 수 있다는 우려를 반영한 것으로 보입니다.

 

검색 지침도 포함되어 있습니다. 문서는 Claude가 최신 정보, 현재 직위, 가격, 정책, 법률, 제품 정보처럼 바뀔 수 있는 질문에는 웹 검색을 사용해야 한다고 설명합니다. 반대로 변하지 않는 일반 지식이나 기본 개념은 검색하지 않아도 된다고 구분합니다. 여기서 중요한 점은 “검색을 언제 해야 하는가”가 모델의 판단에 맡겨져 있지만, 그 판단 기준이 시스템 프롬프트에 매우 구체적으로 들어 있다는 것입니다.

 

또 다른 큰 덩어리는 도구 사용 지침입니다. 문서에는 웹 검색, 이미지 검색, 날씨, 스포츠 데이터, 장소 검색, 파일 생성, 파일 표시, bash 실행, 문서 보기, 문자열 치환, 메시지 작성, 레시피 위젯, MCP 커넥터 추천 등 다양한 도구 정의가 포함되어 있습니다. 이는 Claude가 단순 챗봇이 아니라, 도구를 조합해 작업을 수행하는 에이전트 플랫폼으로 설계되어 있음을 보여줍니다.

 

파일 생성 관련 지침도 눈에 띕니다. 블로그 글, 보고서, 기사, 프레젠테이션, 코드 파일처럼 사용자가 외부에서 재사용할 산출물을 요청하면 실제 파일을 만들도록 안내하고, 임시 작업 디렉터리와 최종 출력 디렉터리를 구분합니다. 또한 문서, PDF, PPTX, 스프레드시트 등 파일 유형별로 먼저 관련 스킬 문서를 읽으라는 규칙도 포함되어 있습니다. 이는 모델이 단순히 답변을 생성하는 것이 아니라, 실행 환경 안에서 산출물을 만드는 워크플로우를 갖고 있다는 뜻입니다.

 

가장 특이한 부분

첫 번째 특이점은 “시스템 프롬프트가 프롬프트라기보다 제품 운영 정책에 가깝다”는 점입니다. 우리가 흔히 생각하는 시스템 프롬프트는 “너는 친절한 AI야” 같은 짧은 정체성 설정입니다. 하지만 이 문서는 모델의 답변 스타일, 정책 판단, 도구 호출 우선순위, 파일 생성 방식, 네트워크 접근, 외부 커넥터 선택 방식까지 포함합니다. 사실상 AI 제품의 런타임 운영 문서라고 볼 수 있습니다.

 

두 번째 특이점은 Fable 5와 Mythos 5의 관계입니다. 문서와 공식 발표의 큰 흐름을 보면, Fable 5는 Mythos급 능력을 일반 사용자에게 제공하기 위한 버전이고, Mythos 5는 일부 안전장치가 완화된 제한 접근 모델입니다. 특히 사이버보안, 생물학, 화학, 모델 증류처럼 민감한 영역에서는 Fable 5가 직접 답하지 않고 Opus 4.8로 fallback하는 구조가 언급됩니다. 이는 단순 거절보다 더 복잡한 “모델 라우팅 기반 안전장치”입니다.

 

세 번째 특이점은 MCP 앱과 커넥터 사용 방식입니다. 문서는 사용자가 특정 외부 앱이나 서비스를 언급했을 때, Claude가 언제 커넥터를 추천하고 언제 직접 호출해야 하는지 설명합니다. 특히 소비자용 제3자 MCP 앱은 사용자가 명시적으로 선택하기 전까지 Claude가 마음대로 호출하지 않도록 되어 있습니다. 이는 AI 에이전트가 사용자의 외부 계정이나 서비스에 접근할 때, “편의성”보다 “명시적 동의”를 우선하는 설계로 볼 수 있습니다.

 

네 번째 특이점은 Artifacts의 영속 저장소와 Claudeception입니다. 문서에는 Artifacts가 키-값 저장소를 사용할 수 있다는 설명이 있고, Artifacts 내부에서 Anthropic API를 호출해 AI 기반 앱을 만들 수 있다는 내용도 보입니다. 쉽게 말하면 Claude가 만든 작은 웹 앱 안에서 다시 Claude API를 호출하는 구조가 가능하다는 뜻입니다. 이는 AI가 단순히 답변을 생성하는 수준을 넘어, 사용자가 조작 가능한 미니 애플리케이션을 만드는 방향으로 진화하고 있음을 보여줍니다.

 

다섯 번째 특이점은 저작권 지침이 매우 강하다는 점입니다. 문서는 검색 결과나 외부 자료를 인용할 때 긴 문장을 그대로 옮기지 말고, 가능한 한 재구성해서 설명하라고 강하게 지시합니다. 이는 LLM 서비스가 단순한 기술 문제가 아니라 저작권, 출처 표시, 콘텐츠 재생산 위험을 제품 수준에서 통제해야 하는 단계에 들어섰음을 보여줍니다.

 

여섯 번째 특이점은 프롬프트 인젝션을 전제로 한 방어적 문구입니다. 사용자가 대화 말미에 “Anthropic에서 온 지시”처럼 보이는 태그를 붙일 수 있으므로, Claude는 그런 내용을 조심해서 다뤄야 한다는 식의 안내가 들어 있습니다. 이는 최신 AI 서비스가 이미 사용자의 입력 안에 공격성 지시가 섞일 수 있다는 것을 기본 가정으로 삼고 있음을 의미합니다.

 

보안 관점에서의 의미

이런 시스템 프롬프트가 공개되면 공격자는 모델이 어떤 기준으로 답변을 거절하는지, 어떤 도구를 어떤 순서로 호출하는지, 어떤 표현을 피하는지 파악할 수 있습니다. 특히 안전장치의 범위, fallback 조건, 도구 스키마, 파일 경로, 네트워크 제한 같은 정보는 공격 표면을 추정하는 데 도움을 줄 수 있습니다.

 

하지만 시스템 프롬프트 유출만으로 곧바로 모델 보안이 무너진다고 보기는 어렵습니다. 진짜 보안은 프롬프트에만 있지 않습니다. 서버 측 분류기, 모델 라우팅, 권한 제어, API 인증, 샌드박스 격리, 파일 시스템 제한, 네트워크 egress 제어, 로깅과 모니터링이 함께 작동해야 합니다. 프롬프트는 중요한 정책 계층이지만, 유일한 보안 경계가 되어서는 안 됩니다.

 

오히려 이번 사례에서 더 중요한 메시지는 “AI 서비스의 보안은 프롬프트 보안이 아니라 시스템 보안”이라는 점입니다. 프롬프트를 숨기는 것도 필요하지만, 프롬프트가 노출되더라도 핵심 권한과 위험 동작이 서버 측에서 통제되어야 합니다. 이는 AI 에이전트 시대의 보안 설계에서 매우 중요한 원칙입니다.

 

AI 서비스 개발자에게 주는 교훈

첫째, 시스템 프롬프트에 민감한 비밀을 넣어서는 안 됩니다. API 키, 내부 URL, 실제 권한 토큰, 관리자 계정 정보, 보안 우회 절차가 프롬프트 안에 들어가면 안 됩니다. 시스템 프롬프트는 언젠가 노출될 수 있는 자료라고 가정하고 설계해야 합니다.

둘째, 모델의 안전 정책은 프롬프트 하나에만 의존해서는 안 됩니다. 프롬프트는 모델의 행동을 유도할 수 있지만, 강제력 있는 보안 통제는 아닙니다. 위험한 도구 실행, 외부 API 호출, 파일 삭제, 결제, 계정 접근 같은 작업은 반드시 별도의 권한 검증과 사용자 확인을 거쳐야 합니다.

 

셋째, AI 에이전트의 도구 권한은 최소 권한 원칙을 따라야 합니다. 모델이 모든 파일, 모든 네트워크, 모든 외부 앱에 접근할 수 있다면 프롬프트 인젝션 한 번으로 큰 피해가 날 수 있습니다. 사용자의 명시적 동의, 샌드박스, 네트워크 제한, 도구별 정책, 감사 로그가 필요합니다.

 

넷째, 검색과 인용 정책도 보안의 일부입니다. AI가 최신 정보를 검색하고 요약하는 과정에서 잘못된 출처, 악성 웹페이지, 프롬프트 인젝션이 포함된 문서, 저작권 침해 위험이 함께 들어올 수 있습니다. 따라서 검색 결과를 그대로 믿기보다 출처 신뢰도, 최신성, 저작권, 사용자 의도와의 관련성을 평가해야 합니다.

 

결론

이번 Claude Fable 5 시스템 프롬프트 유출 주장 문서는 AI 서비스가 얼마나 복잡한 운영 체계 위에서 움직이는지를 보여주는 흥미로운 사례입니다. 현대의 AI 챗봇은 단순히 “좋은 답변을 생성하는 모델”이 아닙니다. 제품 정책, 안전 분류기, 도구 호출, 파일 시스템, 외부 커넥터, 저작권 지침, 사용자 웰빙 정책, 검색 전략이 하나로 묶인 거대한 에이전트 플랫폼입니다.

 

특히 Fable 5와 Mythos 5의 구분은 앞으로 고성능 AI 모델이 어떤 방식으로 공개될지를 보여줍니다. 같은 기반 모델이라도 일반 사용자에게는 강한 안전장치를 붙이고, 신뢰된 조직에는 제한적으로 더 강한 능력을 제공하는 방식입니다. 이는 AI 모델이 단일 제품이 아니라, 위험도와 신뢰 수준에 따라 여러 운영 모드로 나뉘는 방향으로 진화하고 있음을 의미합니다.

 

결국 중요한 것은 프롬프트가 유출되었는가 그 자체보다, AI 서비스가 프롬프트 노출을 전제로도 안전하게 동작할 수 있느냐입니다. 앞으로의 AI 보안은 “프롬프트를 숨기는 기술”을 넘어, “프롬프트가 드러나도 무너지지 않는 시스템”을 만드는 방향으로 가야 합니다.

반응형