Bezpečnostné hodnotenie lokálnych AI modelov

Posted on 16 May 2025 by Janci 5 min

Bezpečnostné hodnotenie lokálnych AI modelov

Bezpečnosť LLM modelov v Ollama

Používanie veľkých jazykových modelov (LLM) z verejných repozitárov ako Ollama Library môže prinášať riziká, najmä pri komunitne vytvorených modeloch. Tento dokument sumarizuje odporúčania, riziká a bezpečnostné kroky pre overovanie dôveryhodnosti modelov.


Prečo kontrolovať modely?

Nie všetky modely sú oficiálne vydané alebo auditované. Pri komunitných modeloch môže nastať:

  • Zahrnutie malvéru, RAT (Remote Access Trojan), alebo backdoorov
  • Únik dát cez nečakané API požiadavky
  • Zber a logovanie používateľského vstupu
  • Zavádzajúce odpovede pri dôležitých úlohách (napr. kyberbezpečnosť, právo)

Bezpečnostný checklist

Krok Odporúčanie
Overte reputáciu modelu Pozrite počet hviezdičiek, autorov, komunitné recenzie
Preskúmaj zdroj modelu Overte, či pochádza od známej organizácie alebo vývojára
Preštudujte Modelfile Skontrolujte inštrukcie, príkazy a stiahnuté súbory
Otestujte model v sandboxe Izolované prostredie, bez prístupu k sieťovým službám
Sledujte výstupy modelu Monitorujte podozrivý outbound traffic (curl, wget, socket)
Použite nástroje ako strace, lsof Sledovanie prístupov k súborom, sieti a procesom
Overte binárne závislosti Skontroluj integrity hashov a obsahy .gguf/.bin súborov

Ako sa modely sťahujú v Ollama

ollama pull <model-name>

Príklad:

ollama pull codellama:7b-instruct

Stiahnuté modely sa uložia do:

~/.ollama/models
ollama show <model>

Rizikové indikátory

  • Neobvyklé inštrukcie v Modelfile (napr. shell skripty)
  • Modely stiahnuté zo súkromných URL
  • Nezdokumentované zmeny vo váhach modelu
  • Nečakaný prístup k systémovým zdrojom

Odporúčané riešenia pre enterprise použitie

Riešenie Odporúčanie pre produkciu
Používajte overené modely Mistral, LLaMA 3, DeepSeek, Phi-3
Audit modelov Manual review + hash overovanie
Spúšťajte pod firejail, seccomp, AppArmor
Beh na izolovanom GPU serveri (bez prístupu k internetu)

Frameworky pre AI v kybernetickej bezpečnosti

Názov Frameworku Popis Linka
NIST AI Risk Management Framework (AI RMF) Rámec na identifikáciu, hodnotenie a zvládanie rizík AI systémov vrátane bezpečnostných aspektov. NIST AI RMF
MITRE ATLAS Databáza hrozieb pre AI systémy – typy útokov, obranné stratégie a scenáre. MITRE ATLAS
ENISA AI Threat Landscape Analýza hrozieb AI systémov a využitie AI na ochranu pred kybernetickými útokmi. ENISA AI Threat Landscape
ISO/IEC 42001 Medzinárodný štandard pre správu AI systémov vrátane bezpečnosti a spoľahlivosti. ISO/IEC 42001
EU AI Act + NIS2 Legislatíva EÚ pre reguláciu vysokorizikových AI systémov, vrátane bezpečnostných aplikácií. EU AI Act

Bezpečnostné hodnotenie lokálnych AI modelov

Spomínané nástroje sú prezentované ako štarovací bod ako sa začať zaobevrať možnosťou a procesmi kontrolovania lokálnych AI modelov

1. Testovanie odolnosti voči adversariálnym útokom

Adversarial Robustness Toolbox (ART)

  • Vyvinuté spoločnosťou IBM.
  • Podpora útokov ako FGSM, PGD, DeepFool.
  • Frameworky: TensorFlow, PyTorch, Keras.

CleverHans

  • Knižnica na benchmarking odolnosti voči útokom.
  • Podpora viacerých white-box útokov.

Foolbox

  • Efektívna tvorba adversariálnych príkladov.
  • Kompatibilný s väčšinou ML frameworkov.

2. Útoky na súkromie modelu

PrivacyRaven

  • Útoky typu membership inference, model extraction a model inversion.
  • Zamerané na PyTorch modely.

ML Privacy Meter

  • Hodnotenie rizika úniku tréningových dát (membership inference).
  • Podpora white-box aj black-box prístupov.

TensorFlow Privacy

  • Implementácia techník diferenciálneho súkromia.
  • Nástroje pre trénovanie modelov so zachovaním súkromia.

3. Auditovanie bezpečnosti a monitoring správania modelu

SecML

  • Simulácia a obrana proti adversariálnym útokom.
  • Založené na klasických ML knižniciach.

Steal-ML (Florian Tramèr)

  • Implementácia útokov na extrakciu modelov (model extraction) z MLaaS platforiem.
  • Zahŕňa príklady pre rôzne typy modelov: regresné, rozhodovacie stromy, neurónové siete.
  • Súčasťou je aj publikácia z USENIX Security 2016.

DeepInspect

  • Detekcia úniku informácií z black-box DNN modelov.

4. Ochrana vstupov a obranné techniky

Shield

  • Detekcia adversariálnych vstupov pomocou vizualizácie.
  • Prvky zapojenia človeka do rozhodovania.

PixelDP

  • Obrana vizuálnych modelov pomocou diferenciálneho súkromia.

5. Testovanie LLM modelov / bezpečnosť NLP

Giskard AI Scanner

  • Detekcia zraniteľností, predsudkov a etických rizík v NLP modeloch.
  • Interaktívne rozhranie a automatizované testy.

Robustness Gym

  • Stresové testovanie NLP modelov pomocou rôznych narušení vstupu.

Súhrnná tabuľka

Kategória Nástroje
Adversariálne útoky ART, CleverHans, Foolbox, SecML
Únik súkromia PrivacyRaven, ML Privacy Meter, TensorFlow Privacy
Extrakcia / Inverzia DeepInspect, Tramer’s ML Attack Demos
NLP / LLM Testovanie Giskard, Robustness Gym
Obranné techniky Shield, PixelDP

Poznámky

  • Vyberajte nástroje podľa vášho ML frameworku (napr. PyTorch, TensorFlow).
  • Pre komplexné hodnotenie kombinujte útočné aj obranné nástroje.
  • Pri simulácii útokov používajte izolované (sandbox) prostredia.