Tým vědců ze sdružení CESNET a FIT ČVUT vytvořil průlomovou datovou sadu, která promění oblast detekce hrozeb v počítačových sítích

Ikona hodin 14. ledna 2025

Publikace v časopise Nature Scientific Data potvrzuje výjimečnost dlouhodobého sběru síťových dat

Praha, 14. ledna 2025 – Vědecký tým ze sdružení CESNET a Fakulty informačních technologií ČVUT v Praze (FIT ČVUT), vytvořil unikátní datovou sadu zachycující roční síťový provoz v národní akademické síti. Tato datová sada, využitelná pro pokročilé metody strojového učení a detekci kybernetických hrozeb, získala prestižní publikační prostor v časopise Nature Scientific Data.

Dlouhodobá anonymizovaná datová sada, která věrohodně odráží celoroční síťový provoz, představuje významný posun ve výzkumu bezpečnosti sítí a detekci kybernetických hrozeb. Dosavadní datové sady obvykle obsahovaly pouze několik dnů síťového provozu, kvůli náročnosti dlouhodobého sběru a objemu celkových dat, což omezovalo možnost zkoumat časově proměnné fenomény. Algoritmy strojového učení proto často dosahují výborných přesností pouze během návrhu (v laboratorním prostředí), ale v reálném nasazení selhávají a jejich detekční schopnosti jsou na hraně použitelnosti.

Vědci z CESNETu a FIT ČVUT ve složení Karel Hynek, Jan Luxemburk, Jaroslav Pešek, Tomáš Čejka a Pavel Šiška nyní nabízejí obsáhlou datovou základnu pro studium adaptace algoritmů strojového učení na nové kybernetické hrozby, což pomůže zlepšit bezpečnost v digitálním prostředí.

Datový posun jako klíčová překážka

V rámci projektu „Analýza šifrovaného provozu pomocí síťových toků“, který získal podporu z výzvy IMPAKT 1 Ministerstva vnitra ČR, se výzkumníci zaměřili na detekci neobvyklého síťového provozu pomocí pokročilých metod strojového učení. Rozšíření nově vzniklých detektorů však brzdí tzv. datový posun – jev, kdy naučené modely umělé inteligence (AI) po čase ztrácejí přesnost kvůli změnám v síťovém provozu, např. aktualizací e-mailového klienta, který náhle začne komunikovat jinak.

„Model strojového učení se často spoléhá na data, která časem ztrácejí aktuálnost. Změna charakteru síťového provozu kvůli novým útokům nebo službám může znamenat, že modely začnou být méně přesné, nebo dokonce přesnou fungovat úplně,“ říká Karel Hynek, výzkumník ze sdružení CESNET a FIT ČVUT. „Proto jsme chtěli vytvořit datovou sadu zachycující síťový provoz z celého roku. Taková datová sada nemá kvůli náročnosti svého vytvoření obdoby.“

Od experimentů k reálné praxi

Pomocí krátkodobých datových sad dokážeme vytvořit vysoce přesný AI model, který ovšem v reálném provozu rychle zastará a je potřeba nahradit novým. Nově publikovaná datová sada nyní otevírá cestu k dlouhodobě udržitelným algoritmům pro detekci kybernetických hrozeb.

„Tato datová sada nám poskytla příležitost analyzovat vliv času na výkon algoritmů, což je pro oblast kyberbezpečnosti zásadní. Můžeme díky tomu lépe pochopit, jaké faktory způsobují datový posun a jak tomu předejít,“ dodává Jan Luxemburk, výzkumník z FIT ČVUT, který prováděl analýzu této datové sady.

Prestižní publikační úspěch

Kvalitu a výjimečnost výsledného datasetu dokládá i jeho publikace v časopise Nature Scientific Data. Tento úspěch vyžadoval mimořádně důsledný přístup nejen k vědecké kvalitě samotných dat, ale také k jejich etické stránce.

„Publikace v takto prestižním časopise vždy vyžaduje o něco více práce, protože se klade důraz na kvalitu a etickou stránku výzkumu,“ vysvětluje Karel Hynek. „Od začátku jsme si uvědomovali rizika spojená s naším výzkumem, a proto jsme postupovali extrémně opatrně. Postup tvorby datové sady jsme dlouho připravovali a promýšleli. Metodu kladně zhodnotila i Komise pro etiku vědecké práce ČVUT, bez jejíhož souhlasného stanoviska by data časopis nezveřejnil.“

Posílení bezpečnosti digitálního prostředí

Nově publikovaná datová sada z dílny sdružení CESNET a FIT ČVUT poskytuje vědecké komunitě cenný nástroj pro pochopení dynamických změn v síťovém provozu. Díky dlouhodobému sběru dat se otevírají možnosti pro zkoumání adaptace strojového učení na nové kybernetické hrozby, vývoj robustnějších detektorů a novou metodologii vyhodnocování AI modelů v čase, které lépe odráží reálné nasazení.

Podrobnosti o datové sadě jsou k dispozici v anglickém jazyce ZDE.


Sdružení CESNET, založené v roce 1996 vysokými školami a Akademií věd ČR, poskytuje moderní IT služby pro vědu, výzkum, inovace a vzdělávání. Spravuje a rozvíjí akademickou počítačovou síť, zajišťuje bezpečné přihlašování k portfoliu služeb a nabízí prostředí pro náročné výpočty, datová úložiště a komunikační nástroje pro jednotlivce i týmy.

Služby CESNETu využívají kromě vysokých škol i studenti, akademičtí pracovníci, vědecko-výzkumné organizace, výzkumníci, instituce veřejné správy a neziskové organizace.

Výzkum a vývoj v oblasti informačních a komunikačních technologií jsou nedílnou součástí aktivit CESNETu. Sdružení je také aktivním partnerem mezinárodních výzkumných infrastruktur, jako je panevropská síť GÉANT, evropská gridová infrastruktura EGI.eu a evropská infrastruktura pro otevřenou vědu EOSC.

Fotogalerie