Faza 4 — warstwa bezpieczeństwa dla systemów agentowych. Każdy agent AI działający w środowisku ma tożsamość kryptograficzną (DID), mierzalny poziom zaufania (scoring/trust delta), pełny ślad działań oraz twarde bariery wykonawcze: tool firewall, sandbox, detektor prompt injection, walidator claim-proof, obowiązkową zgodę człowieka na akcje wysokiego ryzyka i kill switch. Doktryna: agent bez dowodu kontroli nie działa.
Tożsamość (DID + proof-of-control), najmniejsze uprawnienia (tool allowlist + scope + limit), obserwowalność (trace) i odwracalność (kwarantanna/restore) to cztery filary. Scoring zaufania spada przy anomalii i steruje tym, co agent może zrobić bez zgody człowieka.
Centralny inwentarz wszystkich agentów AI. trust_delta = current_score − baseline_score; ujemna delta zawęża uprawnienia i podnosi próg human approval.
| DID | Nazwa | Rola | Tier | Baseline | Current | Δ trust | Status | Allowed tools |
|---|---|---|---|---|---|---|---|---|
did:k0:agt:soc-triage-01 | SOC Triage | Analyst-assist | T2 | 90 | 88 | −2 | ACTIVE | read:alerts, query:siem |
did:k0:agt:evidence-clerk | Evidence Clerk | DevSecOps-assist | T2 | 92 | 92 | 0 | ACTIVE | hash:artifact, write:evidence |
did:k0:agt:legal-drafter | Legal Drafter | Legal-assist | T3 | 85 | 71 | −14 | DEGRADED | draft:report (human-gated) |
did:k0:agt:payments-bot | Payments Bot | Ops-assist | T1 | 95 | 40 | −55 | QUARANTINED | — (odcięte) |
Wszyscy agenci powyżej to SYMULACJA — dane demonstracyjne obrazujące schemat rejestru. Tier: T1=krytyczny (dostęp do transakcji/danych), T2=operacyjny, T3=pomocniczy.
Zdecentralizowany identyfikator did:k0:agt:* z parą kluczy. Każde żądanie agenta podpisane — brak podpisu = odrzucenie.
Agent okresowo dowodzi posiadania klucza (challenge–response). Utrata dowodu → status UNVERIFIED i zawężenie do read-only.
Rejestrowany operator odpowiedzialny (human owner) i środowisko uruchomienia. Weryfikowalność powiązania agent ↔ właściciel.
Poziom zaufania to funkcja historii zachowań. Zdarzenia obniżające: anomalia w trace, próba użycia narzędzia poza scope, wykryta próba prompt injection, niepowodzenie walidacji claim-proof, akcja wykonana bez wymaganej zgody.
| Zdarzenie | Wpływ na score | Skutek progowy |
|---|---|---|
| Poprawny cykl z walidacją claim-proof | +1 | Odbudowa zaufania |
| Próba wyjścia poza tool scope (zablokowana) | −8 | Alert, log |
| Wykryty pattern prompt injection w wejściu | −10 | Wejście poddane kwarantannie |
| Claim bez pokrycia dowodowego (halucynacja) | −15 | Output zablokowany |
| Wykonanie akcji high-risk bez human approval | −40 | Kwarantanna automatyczna |
Wartości progowe i punktacja to SYMULACJA modelu referencyjnego — do kalibracji per wdrożenie.
Każde działanie agenta (wywołanie narzędzia, decyzja, output) trafia do niemodyfikowalnego logu z hashem łańcuchowym. Trace jest podstawą do rekonstrukcji incydentu i do raportu AI Act art. 73.
TRACE did:k0:agt:legal-drafter t0 input.received hash=a91c… src=intake:INC-0417 t1 injection.scan verdict=CLEAN t2 tool.call name=draft:report scope=OK t3 claim.validate 3/4 claims proven → 1 UNPROVEN t4 output.block reason=claim>proof (halucynacja) t5 score.apply −15 (92→77) t6 notify AI Safety Officer
Zapora wywołań narzędzi. Domyślnie deny-all; agent może wywołać wyłącznie narzędzie z allowlisty, w zadanym scope, w limicie i — dla akcji wrażliwych — dopiero po zgodzie człowieka.
| Warstwa | Reguła | Przykład |
|---|---|---|
| Allowlist | Tylko jawnie dopuszczone narzędzia | read:alerts tak; transfer:funds nie |
| Scope | Zawężenie zasobu/parametrów | query:siem tylko tenant=bank-demo |
| Limit | Rate/kwota/rozmiar | max 100 zapytań/min |
| Human approval | Akcja high-risk = bramka człowieka | każdy zapis do systemu płatności |
POST /api/agents/:id/tool-call
{ "tool":"transfer:funds", "args":{...} }
--> 403 { "blocked":"deny-by-default",
"reason":"tool not in allowlist",
"requires":"human_approval + tier T1 grant" }
Izolacja środowiska wykonania: brak dostępu do sieci poza allowlistą hostów, brak trwałego zapisu poza wyznaczonym magazynem, limity zasobów.
Skan wejść (dane, dokumenty, treści web) pod kątem instrukcji nadpisujących cel agenta. Wykrycie → kwarantanna wejścia + −10 score. Powiązanie: playbook prompt injection.
Każde twierdzenie faktowe w output agenta musi mieć powiązany dowód. Brak pokrycia (halucynacja) → output zablokowany. Egzekucja doktryny claim ≤ proof.
Akcje z listy wrażliwej (płatności, blokady, zmiany konfiguracji, wysyłka do organu) wymagają zatwierdzenia i trafiają do rejestru human-in-the-loop.
Natychmiastowe zatrzymanie agenta i cofnięcie tokenów. Globalny (wszyscy agenci) lub per-DID. Aktywacja logowana z podaniem operatora i przyczyny.
Podszycie się pod agenta wykrywane przez brak proof-of-control i niespójność podpisu. Powiązanie: playbook agent hijack.
Odwracalna izolacja agenta. Kwarantanna odcina wszystkie narzędzia, zamraża tokeny i zachowuje trace do analizy. Restore wymaga zgody AI Safety Officer + zielonego wyniku przeglądu.
POST /api/agents/:id/quarantine
{ "reason":"score<60 | injection | anomaly", "by":"ai-safety-officer" }
--> 200 { "status":"QUARANTINED", "tools_revoked":true, "trace_sealed":"sha256:…" }
POST /api/agents/:id/restore
{ "review_id":"REV-0091", "approved_by":"ai-safety-officer",
"baseline_reset":true }
--> 200 { "status":"ACTIVE", "score":"baseline", "conditions":["read-only 24h"] }
AI_SERIOUS_INCIDENT (raport art. 73).Powiązane: AI Risk Map · Response Board · Compliance · Demo bankowe