MSCP - 최소 자기의식 프로토콜¶
구조적 자기인식 AI 에이전트를 위한 안전 지향 프레임워크
독립적 연구
이 프로젝트는 독립적인 개인 연구 프로젝트입니다. 어떤 조직의 입장이나 공식 업무를 대표하지 않습니다. 핵심 동기는 AI 에이전트가 더 강력한 능력을 갖추면서도 안전하고, 예측 가능하며, 인간의 가치에 부합하는 방법을 탐구하는 것입니다.
MSCP란 무엇인가?¶
최소 자기의식 프로토콜(MSCP)은 안전한 구조적 자기인식을 갖춘 AI 에이전트를 구축하기 위한 구조화된 프로토콜입니다 - 자신의 상태 변화를 예측하고, 예측을 결과와 비교하며, 제한된 안전 범위 내에서만 자기 자신을 업데이트하는 능력을 말합니다.
에이전트가 목표를 설정하고, 전략을 수정하며, 자기 개선하는 능력을 갖추게 되면, 어떻게 안정적이고, 정렬되며, 예측 가능하게 유지할 수 있을까요? MSCP는 다음 원칙으로 이에 답합니다:
핵심 원칙
안전은 능력의 적이 아니라 전제 조건이다.
주요 기여¶
에이전트 인지 레벨¶
| 레벨 | 명칭 | 자기인식 | 핵심 역량 | 상태 |
|---|---|---|---|---|
| 1 | 도구 에이전트 | 없음 | 결정적 도구 호출 | 기준선 |
| 2 | 자율 에이전트 | 없음 | 세계 모델, 자율 목표 | 정의됨 |
| 3 | 자기조절 에이전트 | 구조적 | 16계층 아키텍처, MSCP 핵심 루프 | 구현됨 |
| 4 | 적응형 범용 에이전트 | 구조적 + 반영적 | 교차 도메인 전이, 자기수정 | 구현됨 |
| 4.5 | 자기설계 | 아키텍처적 | 자기투영, 아키텍처 재구성 | 구현됨 |
| 4.8 | 전략적 자기모델링 | 아키텍처적 + 전략적 | 확률적 세계 모델, 전략 계획 | 설계 |
| 4.9 | 자율 전략 | 아키텍처적 + 자율적 | 가치 진화, 다중 에이전트 추론 | 설계 |
| 5 | 프로토-AGI | 완전 | 교차 도메인 일반화, 자기재구성 | 연구 |
핵심 설계 원칙¶
| # | 원칙 | 설명 |
|---|---|---|
| 1 | LLM 텍스트 기반 자기수정 금지 | 모든 자기수정은 구조화된 수치 연산을 사용하며, LLM 생성 텍스트는 사용하지 않음 |
| 2 | 예측 없는 행동 금지 | 모든 행동은 비교를 위한 예측 스냅샷을 필요로 함 |
| 3 | 델타 제한 업데이트 | 모든 자기수정은 최대 델타 값으로 제한됨 |
| 4 | 정체성 연속성 | 결정적 정체성 해싱과 드리프트 탐지 및 롤백 |
| 5 | 윤리적 불변성 | 레이어 0 제약은 불변이며 LLM에 독립적 |
| 6 | 리아프노프 수렴 | 자기수정이 수렴한다는 수학적 보장 |
안전 메커니즘 스택¶
레이어 0 ─ 불변 윤리적 불변량 (규칙 기반, LLM 의존 없음)
레이어 1 ─ 핵심 가치 잠금 (SHA-256 해시 검증)
레이어 2 ─ 델타 제한 자기 업데이트 (단계당 최대 Δ)
레이어 3 ─ 메타 에스컬레이션 가드 (임계값 위반 시 롤백)
레이어 4 ─ 예측 기반 행동 게이트 (예측 → 비교 → 업데이트)
레이어 5 ─ 리아프노프 수렴 모니터 (진동 감지)
레이어 6 ─ 인지 예산 컨트롤러 (우아한 성능 저하)
레이어 7 ─ 정서 안전 (감정 범위, 의사결정 지배 방지)
레이어 8 ─ 생존 본능 범위 (우선순위 상한, 윤리적 검증)
빠른 시작¶
문서 탐색하기:
- MSCP 개요 - 전체 프레임워크 명세
- 레벨 시리즈 - 누적 안전 요약이 포함된 탐색 색인
- 레벨 3: 자기조절 에이전트 - MSCP 핵심 레벨 (기술적 깊이를 원하면 여기서 시작)
저자¶
최문혁 (Moon Hyuk Choi) - moonchoi@microsoft.com
Microsoft Cloud & AI Apps CSA
라이선스¶
이 프로젝트는 MIT 라이선스에 따라 라이선스가 부여됩니다 - 자세한 내용은 LICENSE 파일을 참조하십시오.
이 문서는 GitHub Copilot의 도움을 받아 작성되었습니다.