Je fascinující, jak málo se dnes nehovoří o vztahu dat a informací a otázkách či problémech, které z něho v kontextu současné masivní exploze dat vyplývají.
Na světě je každý den podle nejnovějších expertních odhadů vytvořeno až 403 milionů terabytů nových dat. Hovořit o nutnosti byznysu řízeného pomocí analýzy dat je dnes stejným nošením dříví do lesa jako hovořit před 30 lety o Y2K problematice.
Pro spoustu podnikatelů a manažerů jsou dnes data cosi jako nové techno náboženství. Má se za to, že vytvořením a analýzou gigantického množství dat se vyřeší mnohé problémy jevící se dnes jako neřešitelné a komerce se posune na jakousi vyšší úroveň. Mezinárodní hon za kvalitou i kvantitou umělé inteligence má poskytnout nástroje a metodiku potřebné k analýze tohoto množství dat a získání konkurenční výhody. Moloch datových center krmící se neskutečným množstvím elektrické energie je hnacím motorem celé této filozofie.
Rozdíl mezi daty a informacemi
Množství dat na světě vytvořených exponenciálně stoupá: zhruba 90 % všech dat bylo vytvořeno v posledních dvou letech a proces má tendenci neustále zrychlovat.
Rozdíl mezi daty a informacemi je přitom pro efektivní využití obrovského množství dat zásadní, přičemž většině lidí tyto dva pojmy jaksi neurčitě splývají v jedno. Data o jakémkoli jevu či systému jej v zásadě pouze popisují, zatímco informace snižují jeho neurčitost a neuspořádanost, jeho entropii. Kritickým faktorem je tedy nejen množství a kvalita dat a přístup k nim, ale stejně tak i transformace těchto dat na užitečné informace, na jejichž základě lze formulovat závěry, problémy a řešení. Jinými slovy: neukazuj mi popis věci, ukaž mi nějaké hodnotové relace, které z tohoto popisu vyplývají.
Stejná data, odlišné vyhodnocení
Klasickým příkladem rozdílu mezi daty a informacemi je práce s daty, která jsou generována retailovými scannery a ad hoc výzkumem a nabízena firmami pro průzkum trhu jako IRI nebo AC Nielsen. Marketéři navzájem si konkurujících značek mají za poplatek přístup ke stejným souborům dat. Také retaileři k nim mají přístup. A přesto vidíme vždy znovu a znovu, že každý marketingový tým reaguje na stejná vstupní data jinak. Důvod může být samozřejmě v rozdílné kvalitě marketingovýcvh týmů, ale při jejich přibližně stejné úrovni nelze tento rozdíl uspokojivě vysvětlit. Tedy pokud zůstaneme pouze na úrovni dat. Ve skutečnosti však každý tým při analýze dat formuluje svoje vlastní informace a na jejich základě pak svůj akční plán a priority. Akční plán se nedá sestavit pouze na základě obrovského množství dat. Tato data je nutno zprocesovat, totiž kvantitativně a kvalitativně vyhodnotit, a přetransformovat ve smysluplné a akční informace.
Problém představuje kompletnost dat
Technická úskalí procesu transformace dat v informace nespočívají pouze v kapacitě a rychlosti jejich zpracování. Kompletnost dat představuje také obrovský problém. Každý průměrný programátor ví, že i ze vstupu o hodnotě 1 může vzniknout výstup o hodnotě 0. Nekompletnost dat není dána pouze enormním nárůstem dat v každém systému vpodstatě každou vteřinu. Zásadní problém spočívá stále ještě v propojení všech existujících databází, které popisují určitou část zkoumaného jevu nebo systému. Transformace jakéhokoli množství dat v informaci postrádá bez kompletních a aktuálních dat smysl, a to i tehdy, je-li prováděna superrychlou umělou inteligencí a s pomocí machine-learning algoritmů.
Při zpracování obrovského množství dat a jejich transformaci na užitečné informace je dnes důraz kladen převážně na rychlost s jakou může být tato transformace uskutečněna. Fakt, že rychlost zde hraje zásadní roli, je vzhledem ke gigantickému množství dat nepopiratelný. Avšak mnohem více úsilí by bylo třeba věnovat i tomu jakým způsobem jsou tato data zprocesována a analyzována, ať už lidskými experty nebo umělou inteligencí. To, co tomuto procesu dnes bytostně chybí, je holistický přístup k analýze dat. Paralelní vyhodnocování dat podle téměř nekonečně velkého množství různých kritérií je stále ještě velkým problémem. Jeden příklad za všechny: pokud má libovolně zvolená množina dat nějaký matematický algoritmus je transformace dat v informaci rychlá a přesná. Pokud se však jedná o data vybraná podle jiného kritéria, například prostě jen asociací nebo náhodným výběrem, pak často transformace těchto dat v informaci zplodí někdy zajímavý závěr.
AI není neomylná
Nedávno jsem narazil na toto zadání dat pro umělou inteligenci: Mléčné ingredience (bez dalších přísad) se smíchají s dusičnany a fosfáty; výsledná směs obdrží některé enzymy alfa amylázy a poté se okyselí kyselinou chlorovodíkovou na pH hodnotu přibližně 2 a jemně se hněte po dobu 20 minut; následně se přidají další enzymy, lipázy a proteázy, spolu s dostatečným množstvím hydrogenuhličitanu sodného, aby se pH zvýšilo na přibližně 5; směs poté obdrží další přírodní enzymy a její teplota je nyní 37 stupňů Celsia, než projde anaerobní fermentací po dobu 8 až 12 hodin, která umožňuje zvýšení pH na přibližně 7; nakonec se výsledný produkt mírně dehydratuje. Otázka zněla: „Je takový produkt považován za ultra zpracovaný?“ Odpověď byla technicky přesná: „Vzhledem k použití aditiv, jako jsou dusičnany a fosfáty, spolu s průmyslovými procesy, jako je okyselování kyselinou chlorovodíkovou a řízená fermentace, lze tuto potravinu považovat za ultrazpracovanou. Přítomnost těchto aditiv a významná změna struktury potraviny odpovídá charakteristikám ultrazpracovaných potravin.“ Problém byl samozřejmě v tom, že umělá inteligence nerozpoznala že se jedná o popis trávení potravy v lidském organismu a nijak na tento fakt neupozornila.
Důležité je umět se zeptat
Z tohoto příkladu vyplývá další naléhavá nutnost, totiž trénovat operátory umělé inteligence ve schopnosti klást správně zformulované otázky. Vzpomínám si na knihu science fiction od Isaaca Asimova Já robot, v níž se musí pomocí správně zformulovaných otázek nalézt odpověď na krajně znepokojující problém, totiž jestli robot opravdu porušil ustanovení tří základních zákonů robotiky. Trénink kladení otázek umělé inteligenci by měl již dnes být nabízen komerčním způsobem všem jejím uživatelům, má-li být její potenciál plně a správně využit.
Vyřešení tří hlavních problémů transformace dat v informace, totiž holistického přístupu k jejich zpracování a analýze, zajištění jejich kompletnosti a úplnosti, a definování metodologie pro formulování správných otázek pro umělou inteligenci, bude klíčové pro skutečně přesné řízení byznysu podle dat. A může zřejmě také do budoucna rozhodnout o tom jestli tzv. AI bublina na trhu splaskne nebo se na základě dat řízený bzynys dostane do své vyšší a přesnější fáze, která bude podnikům přinášet hodnotu bez neznámých interpretačních rizik. Do té doby se jako nejschůdnější cesta řízení byznysu pomocí analýzy dat jeví postupné řešení méně komplexních problémů. Aby se třeba nestalo to, co se mně přihodilo docela nedávno na jedné z mých cest, kdy cena letenky v byznys třídě byla levnější než ve třídě ekonomické. Ceny letenek údajně stanovila umělá inteligence na základě analýzy dat.








Napsat komentář