Cloudera Kudu, applicazioni analitiche real-time in Hadoop

Cloudera Kudu, applicazioni analitiche real-time in Hadoop

Cloudera annuncia il rilascio della beta pubblica di Kudu, il sistema di storage basato su colonne per Hadoop che abilita una potente combinazione di rapide analitiche per i fast data.
Complementare alle esistenti opzioni di storage Hadoop, HDFS e Apache HBase, Kudu è il primo enginee di storage nativo Hadoop che supporta sia accesso casuale a bassa latenza e analitiche con throughput elevato, semplificando notevolmente le architetture Hadoop per casi d’uso real-time sempre più comuni. Una versione Beta pubblica di Kudu è già disponibile in base alla licenza open source di Apache e in futuro verrà trasferita nell’incubatore Apache Software Foundation.

Kudu è complementare alle funzionalità di HDFS e HBase, fornendo inserimenti e aggiornamenti rapidi e scansioni colonnari efficienti. Questa potente combinazione abilita i carichi di lavoro analitici in real-time con un singolo livello di storage, eliminando l’esigenza di architetture complesse.

Charles Zedlewski, vice president, products, Cloudera
Abbiamo migliorato Hadoop fin da subito. La nostra è una missione ambiziosa: stimolare costantemente l’innovazione all’interno della comunità per introdurre la nuova generazione di analitiche supportate da Hadoop, in modo che le aziende possano adattarsi alle tecnologie più recenti. Cloudera ha già trasformato quanto è possibile con Hadoop — permettendo le attività di discovery interattiva e analitiche dei dati con Impala e l’elaborazione flessibile dei dati e lo streaming degli stessi con Apache Spark. Kudu prosegue in tal senso rivoluzionando l’architettura di storage di Hadoop per supportare meglio lo sviluppo di applicazioni analitiche real-time e funge da passaggio cruciale verso il consolidamento di Hadoop quale piattaforma principale per le analitiche moderne.

L’architettura di Kudu ottimizza l’esperienza dello sviluppatore nella creazione di applicazioni analitiche, supportando casi d’uso comune che includono l’analisi delle serie temporali, le analitiche dei dati macchina e la reportistica online. Inoltre, Kudu è progettato per sfruttare i mutevoli trend in ambito hardware ed elaborazione in-memory. Offre prestazioni eccellenti della CPU, sfrutta RAM e Flash, e migliora l’efficienza in ambito I/O. Infine, poiché è un componente aperto nativo all’interno di Hadoop, Kudu è integrato e offre prestazioni più rapide in fase di query per i framework analitici più potenti. Gli utenti fanno già affidamento su molti di questi, tra cui Impala e Spark, per le applicazioni analitiche end-to-end su una singola piattaforma.

Kudu è stato progettato congiuntamente da Cloudera e Intel in anticipo rispetto al mutevole panorama hardware. Intel ha contribuito attivamente a Kudu per fare in modo che sfruttasse appieno le tecnologie di memoria e processore di Intel, attuali e future. Kudu è stato progettato per utilizzare nuove innovazioni di persistent memory (pmem) sviluppate attraverso il progetto pmem di Intel.

Vin Sharma, Director of Strategy & Products for Big Data Analytics di Intel
Man mano che le analitiche di Hadoop evolvono, è fondamentale che vengano progettate tenendo ben presente l’hardware di nuova generazione. Kudu è una tappa fondamentale critica per Hadoop, poiché supporta la crescente necessità di applicazioni real-time semplificate. Intel ha collaborato con Cloudera e la comunità per assicurare che Kudu sia ottimizzato per offrire prestazioni di rapida analisi oggi, ma anche che sia strutturato per utilizzare i miglioramenti delle piattaforme Intel che saranno rilasciati in futuro, come i moduli Intel DIMM con memoria 3D XPoint.

Baoqiu Cui, Chief Architect di Xiaomi
Xiaomi è un utente e sostenitore di lunga data dell’ecosistema Hadoop, e lo ha utilizzato per alimentare un’ampia gamma di casi d’uso nel proprio ambito di business. Il nostro gruppo dedicato all’infrastruttura ha lavorato con Cloudera per sviluppare Kudu, sfruttando la sua capacità unica di supportare le scansioni colonnari, inserimenti e aggiornamenti rapidi per continuare ad ampliare la portata del nostro ecosistema Hadoop. L’utilizzo di Kudu, insieme a strumenti SQL interattivi come Impala, ci ha consentito di creare una piattaforma di analisi dei dati di nuova generazione per analisi e reporting online in real-time. Siamo entusiasti di continuare a lavorare con la comunità per dare un ulteriore impulso a Kudu e alle funzionalità di Hadoop nel suo complesso.

Josh Klahr, VP of Product Management di AtScale
Kudu abilita effettivamente la nuova generazione di architetture analitiche, soprattutto per la Business Intelligence (BI). Con il suo supporto per elevati volumi di lettura e scrittura sia casuali che sequenziali, è il sistema di storage ideale per architetture di BI a bassa latenza scale-out del tipo richiesto dai clienti di AtScale. Poiché le aziende desiderano democratizzare l’accesso ai dati e consentire a Hadoop di eseguire carichi di lavoro analitici veloci e su larga scala, Kudu ricoprirà un ruolo critico. Forte sostenitore dell’ecosistema open source Apache Hadoop, AtScale è parte di questo impegno della comunità ed è lieta di poter contribuire al suo ulteriore sviluppo a favore dei propri clienti.

John Leach, co-founder and CTO, Splice Machine
Siamo entusiasti di far parte della comunità Kudu. In Splice Machine abbiamo sviluppato un RDBMS conforme ACID che opera su Hadoop e stiamo andando oltre i limiti in termini di esecuzione di carichi di lavori misti su Hadoop. Di conseguenza, apprezziamo e supportiamo l’innovazione nell’architettura storage di Hadoop. Kudu è incredibilmente promettente in termini di capacità di gestire aggiornamenti in real-time unitamente ad analitiche prolungate. Rafforza l’ecosistema Hadoop fornendo un engine di storage scalabile alternativo e complementare a quelli esistenti.

Justin Langseth, CEO di Zoomdata
Kudu offre un’architettura storage semplificata per casi d’uso che sono piuttosto comuni tra gli utenti di Zoomdata. Quale componente nativo di Hadoop, l’integrazione di Kudu con Impala e Spark semplifica l’apertura di questi dati utilizzando la soluzione di rapida analisi visiva di Zoomdata. Abbiamo collaborato fianco a fianco di Cloudera e della comunità per contribuire a sviluppare Kudu a soddisfare le esigenze dei nostri utenti - supportando la combinazione ottimizzata di applicazioni analitiche e in real-time - e siamo lieti di proseguire con quest’impegno con il rilascio della versione beta pubblica.

Curt Monash, presidente di Monash Research
Nell’era dei dati generati da computer, è sempre maggiore l’esigenza di analizzare i dati in tempo reale. Ciò è vero per un’ampia gamma di casi d’uso d’analisi, dal monitoraggio e business intelligence alla modellazione e segnalazione predittiva. Kudu, Spark e il resto dello stack Hadoop rappresentano un approccio promettente per soddisfare tali esigenze.