Webová filtrace v říši za zrcadlem

Filtrování webového obsahu je čím dál důležitější součást zajištění informační bezpečnosti – a nejen jí, ale třeba i efektivity a produktivity práce. Filtrování je přitom možné buď provádět, nebo provádět kvalitně.
Miroslava Belušková
v rozhovoru Tomáše Přibyla o práci kategorizačního týmu webového filtru Kernun…

Kde brát kvalitní zdroje?

Přitom filtrování stojí a padá s kvalitou databáze, podle níž probíhá. A tvorba kvalitní databáze není otázkou automatizovaného strojního procesu, ale výhradně „ruční práce“. Důvod je poměrně jednoduchý: ani sebelepší algoritmus nedokáže odlišit drobné nuance ve webových stránkách a dát jim tu správnou „váhu“ (tedy to, jak jsou v konečném důsledku vnímané). Můžete mít hromady textu a pomocných obrázků s určitou tématikou, ale vhodně zvolený podklad pozadí posune web úplně jinam. Své by o tom mohli vyprávět tvůrci algoritmů na zachytávání spamu.

Jenže míra nepřesnosti tolerovaná právě u spamu je při filtraci webového obsahu nepřípustná. „Navíc když jsme zkoušeli svěřit tuto práci automatům, bylo nutné až osmdesát procent kategorizace ručně opravit,“ vysvětluje Miroslava Belušková, která ve společnosti TNS působí na pozici vedoucí kategorizačního týmu webového filtru Kernun. „Ať to byly weby škol, nemocnic nebo obcí, automaty zpravidla vše vyhodnocovaly značně nepřesně a v mnoha případech je zařadily dokonce do tématu pornografie.“

O strojích a lidech

Automatická kategorizace se ukázala nejen jako nepřesná, ale i neefektivní, protože množství reklamací ze strany zákazníků bylo neúnosně vysoké. Správnou cestou nakonec byla sázka na transparentní metodiku ruku v ruce
s manuálním tříděním odkazů. Výsledek je přímo hmatatelný: zatímco zahraniční webové filtry dosahují v našem prostředí úspěšnosti jen kolem osmdesáti procent, Kernun Clear Web se právě díky přesné kategorizaci pohybuje až kolem 98 %. Je totiž markantní rozdíl mezi weby navštěvovanými například v USA nebo jiné počítačové velmoci a mezi weby, na které zavítají čeští uživatelé.

Třídíš, třídím, třídíme

Přestože je úspěšnost filtru Kernun Clear Web extrémně vysoká, platí v tomto případě staré dobré investiční pravidlo „minulé výkony nejsou zárukou výsledků budoucích“. Aneb internet je dynamické prostředí, které se neustále mění a kde se každý den rodí nové stránky. Stačí se podívat na statistiky NetMonitoru: mezi loňským a letošním srpnem vzrostl počet českých uživatelů internetu jen o zhruba pět procent, počet navštívených stránek se zdvojnásobil. Bez nekonečné kategorizace nových webů by tak filtr velmi rychle ztratil svoji aktuálnost, a tudíž i účinnost.
Pokud uživatel vstoupí na nekategorizovanou stránku, je mu přístup (v souladu s firemní bezpečnostní politikou) povolen, zablokován či dočasně omezen (funkcí bypass). Zároveň je však tato stránka automaticky zařazena do anonymního sběrného reportu, který je denně odesílán ke kategorizaci. Pro představu objemu: denně je nutné přebrat a do tematicky odpovídající kategorie správně zařadit zhruba 3000 nových stránek! Automatický nástroj SiteMarker tyto nové stránky nejdříve seřadí podle popularity – tedy počtu přístupů a přednostně jsou tak vyřizovány stránky, které potřebuje kategorizovat co nejvíce uživatelů.

 

„SiteMarker zcela oddělí tazatele od webového odkazu, takže absolutně nejsme schopni zjistit, kdo se o jaké stránky zajímá,“ vysvětluje Miroslava Belušková. „Na druhé straně: pokud náš webfiltr a požadavky na kategorizaci začne využívat nový zákazník s jasně vyhraněným oborem, zaznamenáme nárůst specializovaných webů z jeho oblasti. Speciální kategorií je pak Anonymní proxy, kdy náš automatický skript vyhledává na internetu proxy seznamy, detekuje doposud neznámé adresy a řadí je právě do této kategorie. Snažíme se tak aktivně předcházet potenciálním rizikům.“
Počítá se i se situací, kdy se v čase obsah webu změní. Nejnavštěvovanější stránky jsou kontrolovány častěji, ale postupně se dostává na všechny: třeba v procesu učení nových operátorů. Stejně tak může uživatel uplatnit reklamaci
na špatně zatříděnou stránku formou reklamačního formuláře www.kernun.cz/cwdb.

Jednotná metodika a shoda

O samotnou kategorizaci stránek se přitom stará v současné době osmičlenný tým operátorů. „Původně jsme se domnívali, že na zaškolení nového zaměstnance budou stačit dva týdny. V té dvojce jsme se nemýlili, ale jsou to dva měsíce,“ doplňuje Miroslava. Každý nováček v týmu pracuje nejdříve ve stoprocentním učebním režimu a kategorizuje již správně zařazené stránky. Tím je zajištěna jednotná metodika. Když se to naučí a ve vysoké míře začne docházet ke shodě v zatřídění, přechází postupně k většímu poměru učebních a „ostrých“ stránek. Netuší však, které jsou ony „učební“ a které ony „ostré“. Samozřejmostí je zpětná kontrola a konzultace ze strany vedoucí týmu.

Novým trendem jsou klikači

Vzhledem k tomu, že během procesu jsou tříděny „pouze“ nově navštívené neznámé stránky, nemá příliš vysokou vypovídací hodnotu hovořit o celkových trendech a chování českých uživatelů na internetu. Ze statistik se přesto dají vysledovat určité trendy: v poslední době je to nárůst zájmu o slevové portály a výdělky po internetu – tzv. „klikači“, kterým jde provize za to, že navštěvují dle předem daného rozpisu nebo se stanovenou frekvencí určité weby, jimž tak uměle zvyšují návštěvnost a příjmy z reklamy.
Zajímavé také je, že pornografie již vypadla z „Top Ten“ nejčastěji hodnocených stránek. Snad jsou již uživatelé v této oblasti zodpovědnější – a nesnaží se v práci přistupovat k nepatřičným webům. Dlouhodobým lídrem v kategorizovaných stránkách jsou naopak nákupní weby: evidentně roste jak nabídka, tak poptávka. Následuje podnikání a průmysl. Překvapením může být stabilní zájem o tématiku stavebnictví včetně péče o dům a zahradu. Stejně tak vzniká množství nových webů v oblasti „krásy a módy“. Zaznamenat lze i sezónní výkyvy: třeba v letní době se tématika dovolených
a cestování dostává na přední příčky.

A co vy, jste správně zařazeni?

Katalog webového filtru Kernun pracuje s celkem 61 tematickými kategoriemi, přičemž každá stránka může být zařazena maximálně ve třech. Každopádně, pokud vás zajímá zařazení například vaší společnosti nebo oblíbeného webu dle metodiky společnosti TNS, není nic jednoduššího, než si to ověřit na stránce: www.kernun.cz/cwdb a hned se dozvíte výsledek. Můžete zde také prostřednictvím on-line formuláře případně navrhnout přesnější zatřídění.