Come approcciare la Data Analytics Visualization
La finalità generale degli strumenti di Data Visualization e Analytics è quella di spiegare nel modo migliore possibile la realtà, attraverso la lettura e interpretazione dei dati.
Tra i motivi che rendono fondamentale la Data Visualization:
- Rendere i dati più facili da capire e ricordare;
- Scoprire nuove tendenze;
- Visualizzare rapidamente relazioni e schemi;
- Raccontare storie curando i dati in una forma più facile da capire;
- Aumentare la capacità di agire rapidamente sui risultati
La disponibilità sempre più ampia di dati e di strumenti di raccolta ed elaborazione richiede l’applicazione di una metodologia di tipo Data Driven con due livelli di Data Analysis:
- Analisi descrittiva: rappresentazione e descrizione della realtà spiegata dai dati;
- Analisi predittiva: basata su soluzioni che permettono di effettuare l’analisi dei dati al fine di disegnare scenari di sviluppo nel futuro.
Per estrapolare informazioni dai Big Data è necessario avvalersi di una serie di metodologie di analisi, ma anche di sistemi adatti per la loro rappresentazione che consenta di indagare complessi fenomeni della realtà.
La progettazione (design) della soluzione di data Visualization è una fase fondamentale che permette attraverso gli strumenti di visualizzazione dei dati di dare ordine al reale.
Rispetto alle classiche tabelle che raccolgono i dati in lunghi elenchi di righe e colonne, la visualizzazione dei dati mostra nuove pratiche visive per guidare l’utente nell’esplorazione semantica dei grandi set di dati.
I raw data sono considerati come una “materia amorfa”, che ha bisogno di un progetto preciso per potersi strutturare in informazione, constatando che i dati, di per sé, non sono né informazione, né uno strumento oggettivo di conoscenza. Intendendo la visualizzazione dati come un potente processo di “sense-making: analisi, elaborazione e interpretazione (del designer) di un insieme di dati”.
L’obiettivo principale di queste rappresentazioni è quello di creare un nuovo linguaggio che sia facilmente comprensibile e che riproduca al meglio il complesso fenomeno dei Big Data.
L’interattività consente di avere delle rappresentazioni dinamiche in cui l’utente può interagire con esse secondo i propri interessi di analisi.
Questo diviene possibile attraverso l’utilizzo delle variabili come parametri e delle relazioni con altri data set che ne influenzano la struttura (e il significato).
Questo tipo di visualizzazione trova la massima realizzazione nelle Data Visualization interattive online.
Lo strumento viene progettato per fornire una fotografia delle principali tendenze che contribuiscano alla valutazione d’impatto dei processi e procedure operative atte al miglioramento delle stesse adottando un approccio metodologico data driven.
Lo strumento progettato oltre a fornire indicatori di tendenze storiche, grazie all’utilizzo di algoritmi statistici uniti a funzionalità di Machine Learning e Deep Learning, consente di effettuare analisi predittive per individuare la probabilità di risultati futuri basandosi sui dati storici.
La metodologia che applichiamo nel design delle dashboard si basa sui seguenti principi:
- La visualizzazione dei dati deve rispondere a domande strategiche e fondamentali, fornire un valore reale e aiutare a risolvere problemi concreti;
- La visualizzazione di dati deve essere compatibile con le competenze del pubblico e consentire agli utenti di visualizzare ed elaborare i dati in modo semplice e veloce.
- La visualizzazione dei dati viene progettata utilizzando i principi del data journalism, che consento di valorizzare le informazioni rilevanti in modalità aggregata ed effettuare gli approfondimenti attraverso strumenti di drill down fino al dato granulare e drill through per analisi di dimensioni differenti correlate.
- La dashboard viene implementata con diversi livelli di aggregazione dei dati e delle informazioni costituendo report specifici:
- Report strategici progettati per il management che offrono un’analisi completa sulle metriche e KPI’s;
- Report analitici progettati per rispondere alle domande più frequenti con l’obiettivo principale di fornire informazioni in modo diretto e granulare;
- Report operativi ad elevata interattività che consentono di ricercare e sperimentare con i dati per rispondere alle esigenze degli stakeholder;
- Le funzioni visive utilizzate vengono definite al fine di mostrare adeguatamente i dati e visualizzarli nel modo più efficace ed efficiente valorizzando i trend, i KPI’s e le correlazioni essenziali del set di dati.
- Per ogni grafico vengo utilizzate le etichette di spiegazione della figura e strumenti testuali (smart narrative) che consentono di fornire elementi informativi su ciò che non può essere rappresentato graficamente, e/o che sintetizzano le informazioni principali contenuti nell’oggetto visivo stesso.
Il design degli oggetti visivi delle Dashboard, oltre alle best practice descritte si basa sugli attributi preattentivi ovvero le proprietà visive che notiamo senza usare uno sforzo cosciente per determinare quali informazioni catturano la nostra attenzione.
I processi cerebrali avvengono a una velocità estremamente elevata (200 ms) dopo l’esposizione a uno stimolo visivo e non richiedono una ricerca sequenziale; quindi, sono uno strumento molto potente per ciascuno di noi: determinano ciò che viene notato prima di altro.
Sono state definite scientificamente quattro proprietà visive preattentive:
- Forma (orientamento, lunghezza della linea, larghezza della linea, dimensione, forma, curvatura, chiusura, segni);
- Colore (intensità, tonalità);
- Posizionamento spaziale (posizione 2D);
- Movimento.
Il colore è probabilmente l’attributo più potente a nostra disposizione; quindi, in ottica di visualizzazione dei dati, il suo utilizzo assume valenza strategica.
Per ogni oggetto visivo vengono sviluppate le funzionalità di:
- Roll-up: riduzione del livello di dettaglio tramite aggregazione dei dati e un aumento di livello di una gerarchia della dimensione, l’aggregazione è un processo che comporta una riduzione della quantità di dati, attraverso una sintesi che cambia la scala e ne aumenta la stabilità;
- Drill-down: operazione contraria al Roll Up e consente di analizzare il dettaglio di un insieme di dati selezionati;
- Slicing: si seleziona un range di una certa dimensione di analisi e si filtra il cubo, di conseguenza, ottenendo una “fetta”. Ciò avviene selezionando un qualsiasi elemento della dashboard, tutti gli oggetti visivi vengono filtrati per mostrare i numeri di quell’elemento. In particolare, gli indicatori numerici vengono ricalcolati e nei diagrammi le porzioni di interesse vengono evidenziate.
- Drill Through: crea pagine di destinazione nel report per analizzare un’entità specifica, partendo da un punto dati del report di origine per ottenere i dettagli filtrati in tale contesto.
Le nostre soluzioni prevedono l’utilizzo di cubi OLAP (Online Analytical Processing) ovvero una struttura dati che consente di supera le limitazioni dei database relazionali, fornendo strumenti di analisi rapida dei dati.
I cubi OLAP possono visualizzare e sommare grandi quantità di dati, fornendo anche agli utenti l’accesso ricercabile a qualsiasi punto dati in modo che i dati possano essere distribuiti, sezionati ed eliminati in base alle esigenze per gestire la più ampia varietà di domande rilevanti per l’area di interesse di un utente.
I dati sono presentati in un formato in cui vengono classificati in gerarchie e categorie per consentire un’analisi più approfondita. Le dimensioni possono avere gerarchie naturali per consentire agli utenti di eseguire il drill-down a livelli di dettaglio granulare.
Ogni asse del cubo rappresenta una possibile dimensione di analisi; ciascuna dimensione può essere vista a più livelli di dettaglio individuati da attributi strutturati in gerarchie.
Ogni cubo multidimensionale è incentrato su un fatto rilevante per il processo analitico e decisionale.
In sintesi, il cubo rappresenta un insieme di eventi, descritti quantitativamente da misure numeriche.
La definizione dei dati di interesse viene posta alla base della progettazione del modello utilizzando strumenti di Dimensional Fact Model (DFM), ovvero uno schema che consente di rappresentare intuitivamente quali sono le analisi che il cubo permette.
Ogni cubo è composto da un certo numero di dimensioni che fungono da coordinate di ricerca dei dati, disposte nei rami dello schema, e da delle misure, criteri di aggregazione dei dati.
Nell’ambiente Microsoft la modellizzazione dei cubi viene effettuata utilizzando Visual Studio.
Nei cubi OLAP i dati sono storicizzati e strutturati in aggregazioni.
Al fine di garantire le massime performance l’archiviazione dei dati nei sistemi OLAP verrà effettuata tramite columnstore index, ovvero i dati vengono indicizzati e immagazzinati in gruppi che corrispondono alle colonne delle tabelle.
Questa struttura agevola le query di lettura di grandi quantità di dati e con una complessità di calcolo elevata.
Inoltre, avendo i dati nelle stesse colonne lo stesso formato, rispetto al raggruppamento per riga si ha un miglioramento in termini di uso dello spazio di memoria, grazie ad una migliore compressione garantendo risparmio di risorse ed agevolando i processi di ordinamento dei dati.
I cubi costituiscono la base di partenza per la progettazione delle dashboard e sono protagonisti nell’allestimento del data Warehouse.
Le dashboard consentono di esplorare anche agli utenti anche non esperti i dati strutturati dei cubi OLAP. L’obbiettivo è permettere a qualsiasi utente di compiere delle analisi ad alto valore aggiunto pur senza disporre di competenze analitiche avanzate
La principale innovazione proposta è l’applicazione di algoritmi di intelligenza artificiale negli strumenti di analisi dei dati, attraverso due principali direttrici di applicazione:
- Alle analisi stesse, per generare di modelli predittivi basati su dataset, e serie storiche.
- Ai fini della creazione di strumenti di analisi più autonomi.
In quest’ultimo caso i poteri predittivi degli algoritmi sono sfruttati per anticipare alcune delle operazioni di progettazione della BI, in una serie di funzionalità riunite sotto l’espressione “Augmented Analytics” ovvero un approccio di analisi statistiche dei dati basato sull’uso di algoritmi di Machine Learning e Natural Language Processing finalizzato ad automatizzare i processi di analisi normalmente eseguiti dagli specialisti
L’utilizzo del Machine Learning (ML) consiste nello sviluppo di algoritmi sviluppati in linguaggi Python e R in grado di generarsi autonomamente (imparare) attraverso l’esperienza e i dati.
Garantendo la disponibilità di funzionalità di “Automated Insights” che anche con un numero non significativo di input dell’utente generano un quadro di analisi dettagliato selezionando variabili e strumenti grafici in automatico. Per imparare dall’esperienza gli algoritmi tengono in considerazione i risultati che ottengono: nel caso di Power BI, dopo aver usato queste funzioni l’utente può inviare un riscontro direttamente dal programma su quanto ha apprezzato l’output dell’algoritmo.