Cosa sono i big data?

Negli ultimi anni i big data son piano piano usciti dalla grotta da impallinati in cui si nascondevano per diventare mainstream, così mainstream che non è raro sentirne parlare un po’ ovunque, anche nei tg della sera. Ovviamente è un argomento talmente vasto che si può trattare in maniera così generica che si sconfina facilmente nella superficialità e  nel “mito”.  

Ma quindi cosa sono i big data?

In parole veramente semplici, i big data sono la raccolta e l’analisi di grandissimi set di dati.  Questi dati possono arrivare da ogni genere di fonte e possono essere di ogni tipo: dalle carte di credito ai telefoni, dalla navigazione internet ai videogames, dalla sanità alla vostro modo di guidare. In realtà i dati di questo tipo anche in passato venivano raccolti per ricerche di ogni tipo ma quello che cambia al giorno d’oggi è la quantità e l’utilizzo. Infatti ora vi è la capacità di utilizzare tutta questa enorme massa di informazioni per analizzare, elaborare e successivamente creare modelli di comportamento o pattern prestabiliti da utilizzare poi in mille modi diversi. 

 

Ma di quanti dati parliamo, quando si parla di big data?

Tanti, tantissimi, sicuramente abbastanza da riempire il disco del vostro computer in meno di un giorno. Qui si parla di terabyte anzi petabytes non di gigabyte. 

DATA QUANTITA’ SW PER GESTIRLI DOVE SI SALVANO
small <10 gb Excel usb pen
medium 10 gb – 1 tb Database disco di un pc
big >1tb Hadoop, DB distribuiti distribuito su varie macchine

I big data quindi sono dati che vanno oltre la dimensione classica di un database convenzionale. 

 

Come sono fatti questi big data?

Come detto prima la definizione “big data” è abbastanza nebulosa, alla stessa maniera della definizione di cloud. 

Quando si parla di big data si parla di tre V. Le tre V stanno per Volume, Velocity e Variety. Sono i tre aspetti che li caratterizzano e aiutano a capire la natura stessa dei dati e quali software utilizzare per analizzarli. 

Il Volume, inteso come quantità, è ovviamente importante perché è l’essenza dei big data, più dati abbiamo da processare più i modelli che ne escono saranno migliori. L’importanza della Velocity, velocità, è intesa come analisi in tempo reale, spesso quando si lavora sui big data si ragiona in tempo reale, mentre il flusso delle informazioni da analizzare arriva mentre le informazioni stesse si stan producendo, è quindi essenziale essere “veloci” nell’analisi per poter rispondere col modello adeguato. Infine con Variety si intende appunto la diversità dei dati raccolti, saperli analizzare in maniera coerente è di fondamentale importanza, l’accuratezza dell’analisi del flusso dei dati è essenziale per poter creare pattern coerenti con l’ambiente in cui i dati vengono raccolti.

 

In che direzione stiamo andando?

I campi più recenti in cui i big data son letteralmente esplosi e in cui in futuro avremo maggiori interesse e investimento sono: 

  • Machine learning: Ovvero, semplificando molto, si utilizzano grandi set di dati per insegnare ai computer ad avere un determinato comportamento ed interagire con l’ambiente circostante. Sistemi come SIRI della Apple o CORTANA della Microsoft fanno massiccio uso di big data per poter imparare e interfacciarsi meglio.
  • Industria Automobilistica: tutti i dati raccolti dai vari google Maps o semplicemente dal nostro comportamento alla guida o nello scegliere certi percorsi servono a rendere la nostra navigazione sempre più smart, con l’obiettivo ultimo, nemmeno tanto lontano, di una macchina che si guida da sola.
  • Riconoscimento delle emozioni: le analisi delle emozioni in tempo reale è fondamentale per capire in anticipo il comportamento dell’utilizzatore di un qualsiasi sistema.
  • Salute: la salute è uno dei campi in cui i big data possono fare veramente la differenza, l’analisi di grandissime quantità di informazioni inerenti malattie, sintomi e cure ci aiuteranno a trovare le soluzioni ottimali ed ad evitare errori medici nelle diagnosi.

Dove possiamo migliorare?

Tralasciando i problemi legati alla privacy e alla gestione “rispettosa” delle informazioni raccolte, c’è anche, paradossalmente, un problema di scarsa condivisione di dati. I vari e innumerevoli soggetti che raccolgono i dati sono spesso molto restii a condividerli. Si pensi che addirittura le università o i centri di ricerca o anche altre grandi industrie impediscono il libero accesso ai dati grezzi raccolti, che potrebbero invece essere utilizzati per migliorare altre ricerche o prodotti. Insomma superando la diffidenza e lo scetticismo verso i big data si potrà accelerare ancora di più lo sviluppo degli stessi, in modo che tutti possano trarne benefici.

Go to Technology Pusher