Bezpečnostné hodnotenie lokálnych AI modelov

Posted on 16 May 2025 by Janci — 5 min

Bluesky X (former Twitter) LinkedIn mastodon

Bezpečnostné hodnotenie lokálnych AI modelov

Bezpečnosť LLM modelov v Ollama

Používanie veľkých jazykových modelov (LLM) z verejných repozitárov ako Ollama Library môže prinášať riziká, najmä pri komunitne vytvorených modeloch. Tento dokument sumarizuje odporúčania, riziká a bezpečnostné kroky pre overovanie dôveryhodnosti modelov.

Prečo kontrolovať modely?

Nie všetky modely sú oficiálne vydané alebo auditované. Pri komunitných modeloch môže nastať:

Zahrnutie malvéru, RAT (Remote Access Trojan), alebo backdoorov
Únik dát cez nečakané API požiadavky
Zber a logovanie používateľského vstupu
Zavádzajúce odpovede pri dôležitých úlohách (napr. kyberbezpečnosť, právo)

Bezpečnostný checklist

Krok	Odporúčanie
Overte reputáciu modelu	Pozrite počet hviezdičiek, autorov, komunitné recenzie
Preskúmaj zdroj modelu	Overte, či pochádza od známej organizácie alebo vývojára
Preštudujte `Modelfile`	Skontrolujte inštrukcie, príkazy a stiahnuté súbory
Otestujte model v sandboxe	Izolované prostredie, bez prístupu k sieťovým službám
Sledujte výstupy modelu	Monitorujte podozrivý outbound traffic (curl, wget, socket)
Použite nástroje ako `strace`, `lsof`	Sledovanie prístupov k súborom, sieti a procesom
Overte binárne závislosti	Skontroluj integrity hashov a obsahy `.gguf`/`.bin` súborov

Ako sa modely sťahujú v Ollama

ollama pull <model-name>

Príklad:

ollama pull codellama:7b-instruct

Stiahnuté modely sa uložia do:

~/.ollama/models

ollama show <model>

Rizikové indikátory

Neobvyklé inštrukcie v Modelfile (napr. shell skripty)
Modely stiahnuté zo súkromných URL
Nezdokumentované zmeny vo váhach modelu
Nečakaný prístup k systémovým zdrojom

Odporúčané riešenia pre enterprise použitie

Riešenie	Odporúčanie pre produkciu
Používajte overené modely	Mistral, LLaMA 3, DeepSeek, Phi-3
Audit modelov	Manual review + hash overovanie
Spúšťajte pod `firejail`, `seccomp`, `AppArmor`
Beh na izolovanom GPU serveri (bez prístupu k internetu)

Frameworky pre AI v kybernetickej bezpečnosti

Názov Frameworku	Popis	Linka
NIST AI Risk Management Framework (AI RMF)	Rámec na identifikáciu, hodnotenie a zvládanie rizík AI systémov vrátane bezpečnostných aspektov.	NIST AI RMF
MITRE ATLAS	Databáza hrozieb pre AI systémy – typy útokov, obranné stratégie a scenáre.	MITRE ATLAS
ENISA AI Threat Landscape	Analýza hrozieb AI systémov a využitie AI na ochranu pred kybernetickými útokmi.	ENISA AI Threat Landscape
ISO/IEC 42001	Medzinárodný štandard pre správu AI systémov vrátane bezpečnosti a spoľahlivosti.	ISO/IEC 42001
EU AI Act + NIS2	Legislatíva EÚ pre reguláciu vysokorizikových AI systémov, vrátane bezpečnostných aplikácií.	EU AI Act

Bezpečnostné hodnotenie lokálnych AI modelov

Spomínané nástroje sú prezentované ako štarovací bod ako sa začať zaobevrať možnosťou a procesmi kontrolovania lokálnych AI modelov

1. Testovanie odolnosti voči adversariálnym útokom

Adversarial Robustness Toolbox (ART)

Vyvinuté spoločnosťou IBM.
Podpora útokov ako FGSM, PGD, DeepFool.
Frameworky: TensorFlow, PyTorch, Keras.

CleverHans

Knižnica na benchmarking odolnosti voči útokom.
Podpora viacerých white-box útokov.

Foolbox

Efektívna tvorba adversariálnych príkladov.
Kompatibilný s väčšinou ML frameworkov.

2. Útoky na súkromie modelu

PrivacyRaven

Útoky typu membership inference, model extraction a model inversion.
Zamerané na PyTorch modely.

ML Privacy Meter

Hodnotenie rizika úniku tréningových dát (membership inference).
Podpora white-box aj black-box prístupov.

TensorFlow Privacy

Implementácia techník diferenciálneho súkromia.
Nástroje pre trénovanie modelov so zachovaním súkromia.

3. Auditovanie bezpečnosti a monitoring správania modelu

SecML

Simulácia a obrana proti adversariálnym útokom.
Založené na klasických ML knižniciach.

Steal-ML (Florian Tramèr)

Implementácia útokov na extrakciu modelov (model extraction) z MLaaS platforiem.
Zahŕňa príklady pre rôzne typy modelov: regresné, rozhodovacie stromy, neurónové siete.
Súčasťou je aj publikácia z USENIX Security 2016.

DeepInspect

Detekcia úniku informácií z black-box DNN modelov.

4. Ochrana vstupov a obranné techniky

Shield

Detekcia adversariálnych vstupov pomocou vizualizácie.
Prvky zapojenia človeka do rozhodovania.

PixelDP

Obrana vizuálnych modelov pomocou diferenciálneho súkromia.

5. Testovanie LLM modelov / bezpečnosť NLP

Giskard AI Scanner

Detekcia zraniteľností, predsudkov a etických rizík v NLP modeloch.
Interaktívne rozhranie a automatizované testy.

Robustness Gym

Stresové testovanie NLP modelov pomocou rôznych narušení vstupu.

Súhrnná tabuľka

Kategória	Nástroje
Adversariálne útoky	ART, CleverHans, Foolbox, SecML
Únik súkromia	PrivacyRaven, ML Privacy Meter, TensorFlow Privacy
Extrakcia / Inverzia	DeepInspect, Tramer’s ML Attack Demos
NLP / LLM Testovanie	Giskard, Robustness Gym
Obranné techniky	Shield, PixelDP

Poznámky

Vyberajte nástroje podľa vášho ML frameworku (napr. PyTorch, TensorFlow).
Pre komplexné hodnotenie kombinujte útočné aj obranné nástroje.
Pri simulácii útokov používajte izolované (sandbox) prostredia.