Bezpečnostné hodnotenie lokálnych AI modelov
Posted on 16 May 2025 by Janci — 5 min

Bezpečnosť LLM modelov v Ollama
Používanie veľkých jazykových modelov (LLM) z verejných repozitárov ako Ollama Library môže prinášať riziká, najmä pri komunitne vytvorených modeloch. Tento dokument sumarizuje odporúčania, riziká a bezpečnostné kroky pre overovanie dôveryhodnosti modelov.
Prečo kontrolovať modely?
Nie všetky modely sú oficiálne vydané alebo auditované. Pri komunitných modeloch môže nastať:
- Zahrnutie malvéru, RAT (Remote Access Trojan), alebo backdoorov
- Únik dát cez nečakané API požiadavky
- Zber a logovanie používateľského vstupu
- Zavádzajúce odpovede pri dôležitých úlohách (napr. kyberbezpečnosť, právo)
Bezpečnostný checklist
Krok | Odporúčanie |
---|---|
Overte reputáciu modelu | Pozrite počet hviezdičiek, autorov, komunitné recenzie |
Preskúmaj zdroj modelu | Overte, či pochádza od známej organizácie alebo vývojára |
Preštudujte Modelfile |
Skontrolujte inštrukcie, príkazy a stiahnuté súbory |
Otestujte model v sandboxe | Izolované prostredie, bez prístupu k sieťovým službám |
Sledujte výstupy modelu | Monitorujte podozrivý outbound traffic (curl, wget, socket) |
Použite nástroje ako strace , lsof |
Sledovanie prístupov k súborom, sieti a procesom |
Overte binárne závislosti | Skontroluj integrity hashov a obsahy .gguf /.bin súborov |
Ako sa modely sťahujú v Ollama
ollama pull <model-name>
Príklad:
ollama pull codellama:7b-instruct
Stiahnuté modely sa uložia do:
~/.ollama/models
ollama show <model>
Rizikové indikátory
- Neobvyklé inštrukcie v
Modelfile
(napr. shell skripty) - Modely stiahnuté zo súkromných URL
- Nezdokumentované zmeny vo váhach modelu
- Nečakaný prístup k systémovým zdrojom
Odporúčané riešenia pre enterprise použitie
Riešenie | Odporúčanie pre produkciu |
---|---|
Používajte overené modely | Mistral, LLaMA 3, DeepSeek, Phi-3 |
Audit modelov | Manual review + hash overovanie |
Spúšťajte pod firejail , seccomp , AppArmor |
|
Beh na izolovanom GPU serveri (bez prístupu k internetu) |
Frameworky pre AI v kybernetickej bezpečnosti
Názov Frameworku | Popis | Linka |
---|---|---|
NIST AI Risk Management Framework (AI RMF) | Rámec na identifikáciu, hodnotenie a zvládanie rizík AI systémov vrátane bezpečnostných aspektov. | NIST AI RMF |
MITRE ATLAS | Databáza hrozieb pre AI systémy – typy útokov, obranné stratégie a scenáre. | MITRE ATLAS |
ENISA AI Threat Landscape | Analýza hrozieb AI systémov a využitie AI na ochranu pred kybernetickými útokmi. | ENISA AI Threat Landscape |
ISO/IEC 42001 | Medzinárodný štandard pre správu AI systémov vrátane bezpečnosti a spoľahlivosti. | ISO/IEC 42001 |
EU AI Act + NIS2 | Legislatíva EÚ pre reguláciu vysokorizikových AI systémov, vrátane bezpečnostných aplikácií. | EU AI Act |
Bezpečnostné hodnotenie lokálnych AI modelov
Spomínané nástroje sú prezentované ako štarovací bod ako sa začať zaobevrať možnosťou a procesmi kontrolovania lokálnych AI modelov
1. Testovanie odolnosti voči adversariálnym útokom
Adversarial Robustness Toolbox (ART)
- Vyvinuté spoločnosťou IBM.
- Podpora útokov ako FGSM, PGD, DeepFool.
- Frameworky: TensorFlow, PyTorch, Keras.
CleverHans
- Knižnica na benchmarking odolnosti voči útokom.
- Podpora viacerých white-box útokov.
Foolbox
- Efektívna tvorba adversariálnych príkladov.
- Kompatibilný s väčšinou ML frameworkov.
2. Útoky na súkromie modelu
PrivacyRaven
- Útoky typu membership inference, model extraction a model inversion.
- Zamerané na PyTorch modely.
ML Privacy Meter
- Hodnotenie rizika úniku tréningových dát (membership inference).
- Podpora white-box aj black-box prístupov.
TensorFlow Privacy
- Implementácia techník diferenciálneho súkromia.
- Nástroje pre trénovanie modelov so zachovaním súkromia.
3. Auditovanie bezpečnosti a monitoring správania modelu
SecML
- Simulácia a obrana proti adversariálnym útokom.
- Založené na klasických ML knižniciach.
Steal-ML (Florian Tramèr)
- Implementácia útokov na extrakciu modelov (model extraction) z MLaaS platforiem.
- Zahŕňa príklady pre rôzne typy modelov: regresné, rozhodovacie stromy, neurónové siete.
- Súčasťou je aj publikácia z USENIX Security 2016.
DeepInspect
- Detekcia úniku informácií z black-box DNN modelov.
4. Ochrana vstupov a obranné techniky
Shield
- Detekcia adversariálnych vstupov pomocou vizualizácie.
- Prvky zapojenia človeka do rozhodovania.
PixelDP
- Obrana vizuálnych modelov pomocou diferenciálneho súkromia.
5. Testovanie LLM modelov / bezpečnosť NLP
Giskard AI Scanner
- Detekcia zraniteľností, predsudkov a etických rizík v NLP modeloch.
- Interaktívne rozhranie a automatizované testy.
Robustness Gym
- Stresové testovanie NLP modelov pomocou rôznych narušení vstupu.
Súhrnná tabuľka
Kategória | Nástroje |
---|---|
Adversariálne útoky | ART, CleverHans, Foolbox, SecML |
Únik súkromia | PrivacyRaven, ML Privacy Meter, TensorFlow Privacy |
Extrakcia / Inverzia | DeepInspect, Tramer’s ML Attack Demos |
NLP / LLM Testovanie | Giskard, Robustness Gym |
Obranné techniky | Shield, PixelDP |
Poznámky
- Vyberajte nástroje podľa vášho ML frameworku (napr. PyTorch, TensorFlow).
- Pre komplexné hodnotenie kombinujte útočné aj obranné nástroje.
- Pri simulácii útokov používajte izolované (sandbox) prostredia.