Era ApproachFigure 1 - DeepView "Era Approach"La piattaforma DeepView è stata progettata per essere in grado di operare su molteplici scenari ed stata concepita secondo le migliori best practices attualmente condivise dalla comunità scientifica internazionale in ambito Big Data. Tra i punti di forza vi sono senz’altro:

  • la capacità di recupero informazioni, altamente dinamica, scalabile e performante;
  • la capacità della piattaforma di poter operare con la maggior parte dei database NoSql attualmente disponibili sul mercato, garantendo la possibilità di includere nuove tipologie, se necessario;
  • la capacità di poter effettuare le elaborazioni attraverso sistemi distribuiti con scalabilità orizzontale, in modalità commodity hardware.
  • la capacità della piattaforma di poter utilizzare diverse librerie per il machine learning, ampliando le proprie capacità analitiche anche verso la semantica multilingua, l’image processing o il Data Mining in generale.
  • la capacità della piattaforma di poter sfruttare la propria l’architettura modulare in contesti estremamente eterogenei di analisi.
  • la capacità architetturale dei moduli che costituiscono la piattaforma di essere disaccoppiati rispetto ai meccanismi di acquisizione, memorizzazione, elaborazione e presentazione delle informazioni. Questa peculiarità consente di commercializzare anche solo parte del processo di gestione dei Big Data (come ad es. solo il Crawling delle informazioni o solo la memorizzazione) mantenendo comunque un elevato grado di affidabilità dell’intera infrastruttura, garantita anche dalla relativa facilità nell’aumento delle performance attraverso un semplice upgrade o ampliamento dell’infrastrutture hardware.
    L’approccio ad “Era” della piattaforma che permette di identificare e associare ogni item, processo o risultato di analisi rispetto ad una specifica tripla sull’asse temporale <configurazione_piattaforma, dato_input,="" dato_output=""> .

Data Mining

Data Mining 1Figure 2 - DeepView Integration/Discrimination ProcessI processi di Data Mining rappresentano quell'insieme di tecniche e metodologie utilizzate per l’estrazione di un sapere o di una conoscenza da grandi quantità di dati (attraverso metodi automatici o semi-automatici) per fini scientifici, industriali o operativi.

La piattaforma DeepView integra un processo strutturato di Data Mining, applicato sui dataset strutturati e destrutturati provenienti da fonti interne o esterne all’organizzazione Committente, al fine di discriminare e distillare tali informazioni, identificandone quelle realmente significative. Questo processo è ben descritto dalla figura 2.

Volendo descrivere più nel dettaglio tale processo, inizieremo con una rappresentazione più significativa che sarà utile anche per identificare gli elementi tecnologici della Piattaforma DeepView coinvolti in questa importante attività, che nella sua interezza viene denominata DeepView CDM (Figura 3 - Core Data Mining).

Il processo DeepView CDM interagisce, in una prima fase, con il Modulo di Store, dove i dati recuperati dalle varie fonti vengono archiviati in un cluster eterogeno NoSql, al fine di effettuare delle attività di integrazione e “pulitura” delle informazioni. Successivamente, nella fase 2, vengono selezionate le informazioni potenzialmente significative sulle quali vengono applicati gli algoritmi di distillazione (Fase 3) che attraverso il modulo di Processing consentiranno di produrre gli output finali di analisi (Fase 4).

Gli algoritmi utilizzati durante queste fasi, sono stati sviluppati dal Team DeepView e sono classificabili nelle seguenti tipologie:

Data Mining 2Figure 3 - DeepView CDM (Core Data Mining)Tecniche locali

Metodologie statistiche per lo studio delle associazioni e delle sequenze tra i dati. Le “tecniche locali” vengono normalmente utilizzate quando l’obiettivo primario è quello di identificare delle regole caratterizzate da misure di rilevanza, rispetto all’argomento di indagine.

Tecniche non supervisionate

Applicazione di modelli multivariati statistici, utilizzati per il raggruppamento delle informazioni in unità statistiche, sfruttando misure di distanza e similarità, attraverso tecniche gerarchiche e non gerarchiche (Clustering). Queste metodologie vengono applicate quando l’obiettivo primario è quello di ottenere gruppi o cluster di informazioni al loro interno massimamente omogenei, ma esternamente potenzialmente eterogenei.

Tecniche supervisionate

Applicazione di modelli multivariati predittivi parametrici, non parametrici e di serie storiche. Tali tecniche vengono applicate quando l’obiettivo è quello di produrre modelli statistici con ottime capacità predittive e discriminatorie, ben calibrati rispetto alla stabilità dei risultati; la scelta del migliore modello avviene attraverso il confronto di Key Performance Indicators, misurati su dati di validazione (out of sample). Questi modelli prevedono l’integrazione con tecniche di averaging per l’ottimizzazione del modello stesso.

Tecniche ausiliarie

Metodi statistici di riduzione della dimensionalità per differenti tipologie di variabili e tecniche di selezione delle variabili, in relazione alla massimizzazione della rilevanza e minimizzazione della ridondanza delle informazioni, attraverso l’individuazione e gestione multivariata delle outliers.

Text Analysis

Per le fasi di Text Analysis (o di analisi semantica), fondamentali in ogni processo di analisi dei Big Data, la piattaforma DeepView mette a disposizione l’integrazione con i principali framework NLP (Natural Language Processing) open source quali OpenNLP, NLTK, GATE, UIMA.

Tra gli algoritmi a disposizione vi sono:

  • Language Detection;
  • Sentence Detection;
  • Word Tokenization;
  • Part of Speech Tagging;
  • Chunking;
  • Mention Detection;
  • Topic Detection;
  • Co-refernce Resolution;
  • Relation Extraction;
  • Token Regex;
  • Name Entity Recognition;
  • Lemmatization;
  • Sentiment Polarity;
  • Corpus Classification;
  • Corpus Summariser;
  • Corpus Similarity Detection;
  • Pattern Matching.

La piattaforma DeepView, inoltre, attraverso l’integrazione con gli algoritmi di Machine Learning e di Classificazione specifici di ogni libreria NLP, permette la realizzazione di processi di addestramento (autoapprendimento) personalizzati. L’output ottenuto a valle di questo processo, denominato “dizionario” può essere in seguito utilizzato negli algoritmi di Name Entity Recognition o Sentiment Polarity al fine di personalizzare, rispetto le esigenze della committenza, il livello di analisi. I dizionari definiti durante i vari cicli di esercizio della piattaforma, indipendentemente dalla commessa attiva, vengono messi a disposizione delle analisi successive attraverso un sistema di librerie condivise, ampliando costantemente il livello di “conoscenza” dell’intero sistema.

Reti Neurali e Machine Learning

Una Rete Neurale Artificiale (ANN) è un algoritmo per l’elaborazione di informazioni che permette di ricostruire in modo particolarmente efficace le regole approssimative che mettono in relazione un certo insieme di dati “esplicativi” per il problema considerato (l’Input), con un insieme di dati (l’Output) dei quali si richiede una corretta previsione o riproduzione in condizioni di incompletezza informativa.

Le ANNs sono meccanismi di elaborazione di dati, che auto-producono le proprie regole sulla base di una esplorazione iterativa dell’evidenza empirica disponibile. In altre parole, il ricercatore non è obbligato fin dall’inizio a specificare una precisa ipotesi (e quindi una classe di possibili regole che connettono i dati di Input a quelli di Output), per la quale cercare un riscontro fattuale, ma deve soltanto valutare quale sia, a suo giudizio, l’algoritmo più adatto per la determinazione della regola appropriata.

Le ANNs risultano particolarmente utili quando si fronteggia un problema per il quale si possiede una rilevante massa di dati, senza avere una precisa idea dei processi che li hanno generati. In questo senso, le ANNs si differenziano tanto dai sistemi esperti, in quanto sono in grado di lavorare su basi di dati ristrette e caratterizzate da una struttura molto rigida, in condizioni di scarsa comprensione del problema, ma anche rispetto ai modelli fisici, che hanno bisogno di una precisa definizione teorica dalla cui correttezza dipende interamente la qualità delle loro elaborazioni. Rispetto ad altre tecniche di analisi, le ANNs risultano quindi molto utili quando si dispone di molti dati, ma non di una buona ipotesi esplicativa, necessaria per organizzarli.

Su tale tema la piattaforma DeepView mette a disposizione diversi modelli di reti neurali artificiali quali:

  • Feed Forward Networks;
  • Back Propagation Networks;
  • Learning Vector Networks;
  • Adaline;
  • Perceptron;
  • Multi Layer Perceptron with Backpropagation, Momentum on Resilient Propagation;
  • Hopfield network;
  • Bidirectional Associative Memory;
  • Kohonen Network;
  • Hebbian Network;
  • Maxnet;
  • Competitive Network;
  • Instar;
  • Outstar;
  • RBF Network;
  • Neuro Fuzzy Reasoner;
  • Self Organization Maps;
  • Interactive Activation;
  • Competition Networks.

Prediction

Le attività di analisi che portano alla realizzazione di Modelli Predittivi partono dall’individuazione di Trend o serie storiche significative rispetto all’argomento di indagine. La Trend Analysis consiste nell’individuazione dell’andamento di un dato fenomeno attraverso l’utilizzo di algoritmi statistici, e comprendono le seguenti attività:

  • Esplorazione dei dati e definizione di indici di dipendenza, associazione e correlazione;
  • Modifica dei dati rispetto a trasformazioni di variabili e identificazione delle osservazioni anomale;
  • Implementazione di modelli statistici in relazione agli obiettivi di analisi;
  • Validazione dei modelli e scelta del migliore modello;
  • Verifica e valorizzazione dei risultati raggiunti in relazione agli obiettivi fissati;
  • Valutazione in termini di ROI del progetto;
  • Attività di dissemination dei risultati ottenuti dal progetto attraverso la pubblicazione di articoli scientifici e la creazione di "best practice”.

Scopri le Modalità di Analisi di DeepView >