Overenie bezpečnosti LLM modelov

Posted on 15 May 2025 by Janci — 3 min

Bluesky X (former Twitter) LinkedIn mastodon

Overenie bezpečnosti LLM modelov

Bezpečnostný Checklist z pohľadu Risk Managementu

1. Inventarizácia AI aktív

Zoznam modelov: verzia, zdroj
Závislosti: knižnice, dáta, nástroje

2. Identifikácia a hodnotenie rizík

Adversariálne hrozby: prompt injection, manipulácia výstupov
Krádež modelu: ochrana pred neoprávneným prístupom
Zneužitie modelu: kontrola a obmedzenie použitia

3. Modelovanie hrozieb (Threat Modeling)

Analýza útokov: identifikácia vektorov
Scenáre zneužitia: návrh mitigácií

4. Ochrana dát a súkromia

Anonymizácia: odstránenie citlivých údajov
Prístupové práva: kontrola prístupu k modelom a dátam

5. Bezpečnostné testovanie a validácia

Red teaming: simulácia útokov
Automatizované testy: detekcia prompt injection

6. Bezpečné nasadenie a monitorovanie

Izolácia prostredí: oddelenie vývoj/test/produkcia
Monitorovanie: výstupy modelu, anomálie

7. Pravidelné aktualizácie a údržba

Aktualizácie modelu: najnovšie verzie
Záplaty: pravidelná aplikácia bezpečnostných záplat

OWASP Top 10 pre LLM

Prompt Injection
Nezabezpečené spracovanie výstupov
Otrava tréningových dát
Denial of Service (DoS)
Zraniteľnosti v dodávateľskom reťazci
Únik citlivých informácií
Nezabezpečený dizajn pluginov
Nadmerná autonómia modelu
Nadmerná dôvera v model
Krádež modelu

Odporúčané Nástroje a Rámce

LlamaFirewall – ochrana proti prompt injection
OWASP LLM Security & Governance Checklist
Lakera Red – red teaming nástroj
Meta Purple Llama – bezpečnostné frameworky

Bezpečnostný Checklist pre nasadenie open-source LLM modelov

Základné bezpečnostné kroky

Krok	Odporúčanie
Overenie zdroja	Používajte modely z overených zdrojov (Hugging Face, Meta AI, atď.)
Kontrola hashov	Overte SHA256 / MD5 hashe súborov ak sú dostupné
Statická analýza modelu	Použite nástroje ako `gguf-inspect`, `transformers-cli`
Sandboxové spustenie	Testujte model v kontajneri (Docker), s obmedzenými právami
Sieťová izolácia	Zakážte prístup do internetu pri testovaní modelu
Monitorovanie procesov	Sledujte výstupy modelu + použitie disku / siete (`auditd`, `tcpdump`)
AI bezpečnostné vrstvy	Zvážte použitie nástrojov ako LlamaGuard, TruLens, atď.
Proxy & filtrovanie požiadaviek	Využitie API proxy (napr. OpenWebUI middleware) na kontrolu otázok

❌ Rizikové správanie (indikátory)

Model sa pokúša vytvárať alebo upravovať súbory
Model generuje reťazce pripomínajúce heslá, tokeny, alebo adresy
Nečakané výstupy (napr. base64 bloky, kódovanie)
Vysoké alebo špičkové využitie CPU/GPU bez dôvodu

Príklady dôveryhodných zdrojov

Odporúčaný postup testovania

docker run s obmedzeným prístupom
Logovanie všetkých požiadaviek
Vnútorné pentestovanie výstupov (prompt injection)
Vyhodnotenie cez bezpečnostný tím pred produkciou