Dukungan untuk Spark SQL dan MLlib memperluas kemampuan-kemampuan platform Hadoop untuk pengembang dan peneliti data
Jakarta – 3 Desember 2015 – Cloudera, penyedia manajemen data dan platform analisis tercepat, termudah dan teraman yang dibangun pada Apache Hadoop dan teknologi open source terbaru, hari ini mengumumkan bahwa platform ini telah lebih jauh lagi meningkatkan integrasi Apache Spark ke dalam lingkungan Apache Hadoop, dengan pencapaian penting seputar kegunaan dan interoperabilitas sepanjang tahun lalu. Untuk lebih memperluas kemampuan perusahaan dari mesin pengolahan data yang kuat ini, Cloudera telah menambahkan dukungan untuk Spark SQL dan MLlib ke Cloudera Enterprise 5.5 dan CDH 5.5, yang baru saja diluncurkan oleh perusahaan.
Berkat kemudahan pengembangan dan pengolahan datanya yang fleksibel, Spark sangat dikenal dalam komunitas open source dan di berbagai kasus penggunaan pelanggan. Ini merupakan proyek yang paling aktif di Apache Software Foundation (ASF), dengan lebih dari 800 pengembang dari lebih dari 200 perusahaan. Tim Spark committer Cloudera telah aktif mendorong kemampuan perusahaan Spark dan menyatukan Spark ke dalam Hadoop untuk memenuhi kebutuhan pelanggan dan adopsi produksi lebih lanjut (lihat infografik).
“Penggunaan Spark oleh komunitas pengembang dan upaya Cloudera dalam satu tahun terakhir untuk mendorong pengadopsian utamanya telah memberikan kontribusi luar biasa,” kata Doug Cutting, chief architect Cloudera. “Dengan sebagian besar konsumen menjalankan Spark dengan Hadoop, kami telah membuat langkah mengesankan dalam meningkatkan kemampuan perusahaan dari penggelaran Spark untuk Hadoop di seluruh industri dan kasus-kasus penggunaan. Dengan tambahan Spark SQL dan MLlib ke platform Cloudera, dan roadmap yang jelas dengan One Platform Initiative, pengadopsian Spark akan terus melambung dalam hal batch, streaming, dan kasus penggunaan pembelajaran mesin.”
Cloudera dan Spark: Review Satu Tahun untuk Adopsi Produksi
Selama satu tahun terakhir, Cloudera telah membuat kemajuan yang signifikan dalam peningkatan Spark dalam mengatasi kasus penggunaan pengolahan data yang lebih luas, termasuk aplikasi-aplikasi end-to-end Internet of Things (IoT), pengelolaan batch yang lebih sederhana, dan pembelajaran mesin asli.
Karena semakin banyak pelanggan ingin memanfaatkan Internet of Things dan streaming data secara real-time, mereka membutuhkan mesin pengolahan stream berskala perusahaan untuk mendukung aplikasi mereka. Untuk mengatasi hal ini, Cloudera memimpin pengembangan dalam ketahanan Spark Streaming, yang memastikan tidak adanya kehilangan data dan membawanya ke standar produksi. Perbaikan penting ini, disandingkan dengan integrasi Apache Kafka dalam platform tersebut, memungkinkan pelanggan Cloudera untuk membangun aplikasi-aplikasi IoT yang lengkap dalam satu platform terpadu dan telah memberikan perubahan drastis di keseluruhan pengadopsian Spark Streaming.
Untuk memungkinkan pengelolaan batch yang lebih kuat dan lebih sederhana, dan membantu memperkuat posisi Spark sebagai mesin eksekusi standar di Hadoop, Cloudera juga merilis versi beta dari Apache Hive-on-Spark tahun ini. Sebagai alat pilihan untuk pengembangan ETL, integrasi Hive dengan mesin pengolahan Spark menandai sebuah tonggak penting yang mendukung beban kerja integrasi data generasi berikutnya dan pengadopsian Spark sebagai penerus MapReduce.
One Platform Initiative Cloudera, yang diumumkan pada bulan September lalu, melanjutkan percepatan pembangunan Spark Apache untuk perusahaan dan dalam ekosistem Hadoop. Cloudera memberikan peningkatan yang signifikan dalam keamanan, skala, manajemen, dan kemampuan streaming Spark, dan akan terus fokus pada pengembangan ini di tahun mendatang.
Dengan rilis terbaru Cloudera 5.5, Cloudera menambahkan Spark MLlib – memperluas kemudahan penggunaan dan peningkatan performa Spark untuk aplikasi pembelajaran mesin dalam Hadoop – dan Spark SQL – memperluas kemampuan-kemampuan Spark untuk para pengembang dan peneliti data dengan memungkinkan SQL tertanam dengan mulus dalam aplikasi Spark. Rilis ini juga termasuk peningkatan yang dibuat untuk mesin kueri Spark SQL sebagai bagian dari Project Tungsten, sehingga menyediakan perbaikan yang signifikan dalam hal efisiensi dan kecepatan. Untuk fungsionalitas lebih lanjut, integrasi-integrasi yang dibangun dengan Hive dan metastore-nya memastikan interoperabilitas penuh skema data dengan Spark SQL dalam platform Hadoop – memastikan pengguna yang tepat memiliki pengalaman tanpa hambatan dengan alat yang tepat untuk pekerjaan mereka, baik itu pengembangan ETL dengan Hive, pembangunan aplikasi dengan SparkSQL, atau intelijen bisnis interaktif dengan Impala.
Mendorong Pengadopsian Pelanggan Besar
Dengan pengalaman besar mendukung Spark sebagai bagian dari Hadoop, Cloudera memiliki lebih banyak pelanggan yang menjalankan Spark dalam Hadoop dibandingkan semua vendor lainnya yang digabungkan dan kekuatan beberapa kelompok Spark multi penyewa terbesar saat ini, termasuk penyebaran lebih dari 800 titik.
Dengan lebih dari 170 pelanggan yang menggunakan Spark di berbagai industri, termasuk keuangan, kesehatan, ritel, dan asuransi, Cloudera telah membantu pelanggan menangani berbagai kasus penggunaan generasi selanjutnya, termasuk:
· Cox Automotive: Penyedia produk dan layanan terdepan untuk dealer otomotif dan pembeli mobil, beralih dari analisis per jam ke informasi real-time ke dalam kampanye iklan yang menggunakan Spark Streaming
· PRGX: Penyedia pelayanan audit pemulihan akun hutang terkemuka di dunia menyatakan pengolahan data Spark yang fleksibel dengan performa tinggi telah menjadi penyelamat dan menghasilkan peningkatan performa 9-10 kali lipat dibandingkan dengan sistem yang lama
· Online Retailer: Memanfaatkan Spark untuk mengurangi waktu pengolahan data hingga 30% dan mengambil keuntungan dari tren-tren real-time untuk penggunaan yang lebih besar
· Allstate: Salah satu penyedia asuransi nasional terbesar, menggunakan Cloudera dan Apache Spark untuk menggabungkan lebih dari 80 tahun data untuk model harga yang sangat halus
· RelayHealth: Penyedia solusi teknologi layanan kesehatan dan anak perusahaan McKesson, membangun model prediktif untuk kapan pembayaran kepada penyedia layanan kesehatan akan diterima sehingga meningkatkan arus cash mereka. Perusahaan ini memproses interaksi pembayaran layanan kesehatan antara 200.000 dokter, 2.000 rumah sakit, dan 1.900 pelanggan layanan kesehatan.
· Barclays: Perbankan multinasional dan perusahaan jasa keuangan, membangun mesin informasi yang secara aman menganalisa data transaksi yang berbeda sebelumnya dan memberikan informasi yang relevan untuk pelanggan Barclays yang mudah dicerna
Selain itu, Accelerator Program Cloudera untuk Spark telah mendorong puluhan aplikasi Spark yang kuat dan integrasi dengan alat-alat pihak ketiga yang terkenal, lebih memperluas kemampuan Spark kepada para pelanggan. Mitra-mitra utama termasuk Datameer, Informatica, Oracle, Paxata, Pentaho, Platfora, StreamSets, Syncsort, dan Talend.
Datameer
“Datameer sangat senang melihat investasi berkelanjutan Cloudera di Spark karena ini memiliki potensi untuk memberikan nilai yang sangat besar kepada pelanggan kami berkat skalabilitas dan kinerja interaktifnya,” kata Stefan Groschupf, CEO of Datameer. “Di luar Spark Connector yang kami umumkan di Strata + Hadoop World Singapore, kami juga akan terus bekerja sama dengan Cloudera untuk mengembangkan kasus-kasus penggunaan bernilai tinggi seputar Spark serta komponen lain dari platform Hadoop.”
Informatica
“Kesempatan bagi Informatica dan Cloudera bekerja sama untuk mendorong pengembangan dan penggelaran Apache Spark, di samping Hadoop sangat baik untuk pelanggan bersama kami,” kata Sanjay Krishnamurthi, Senior Vice President and Chief Technology Officer, Informatica. “Pelanggan-pelanggan kami memanfaatkan Spark di dalam platform Manajemen Big Data Informatica untuk menyediakan analisis terpercaya dalam skala besar. Bersama dengan Cloudera, kami menyediakan aset data dengan kecepatan tinggi untuk tata kelola dan keamanan big data holistik dan integrasi big data yang lebih sederhana, yang menjamin kepercayaan dalam menghadapi volume data yang terus tumbuh.”
Paxata
“Paxata memberikan platform yang paling komprehensif dirancang untuk menyiapkan data layanan mandiri interaktif dalam skala besar bagi organisasi yang digerakkan oleh informasi,” kata Prakash Nanduri, CEO and Co-founder of Paxata. “Sebagai salah satu vendor terkemuka yang sepenuhnya memanfaatkan Spark, kami dapat memberikan pengalaman pelanggan tanpa hambatan dari volume data, varietas, atau kecepatan. Kami senang melihat upaya dan investasi dari Cloudera dalam pengembangan Spark, seperti yang dijanjikan melalui One Platform Initiative. Keterlibatan kami dalam ekosistem Cloudera dan keputusan kami untuk selaras dengan visi Cloudera jadi sangat penting dalam kepemimpinan kami di pasar tersebut dan keberhasilan pengembangan kami dengan Spark.”
Pentaho
“Pentaho fokus pada investasi big data pelanggan yang future-proofing, dan berkolabolarasi sejak awal dengan mitra-mitra utama pada teknologi-teknologi baru dan menjanjikan, seperti Spark, merupakan satu cara yang membantu kami untuk memenuhi janji tersebut,” Will Gorman, VP Labs Pentaho, Hitachi Group Company.”Dengan sumber daya engineering yang tersedia melalui Program Cloudera Accelerator untuk Spark, Pentaho Labs, pusat inovasi yang ada di Pentaho, dapat menguji dan berkolaborasi pada fitur-fitur baru di analisis big data perusahaan dengan Spark. Dengan membuat prototype hingga penggunaan sebenarnya, pelanggan kami dapat menerapkan integrasi asli untuk membuat arsitektur generasi berikutnya.”
Platfora
“Platfora telah melakukan investasi besar di Spark untuk membuat platform Spark kami yang asli,” kata Jason Zintak, CEO and President of Platfora. “Pelanggan kami menginginkan kecepatan pengembangan dan pengolahan yang disediakan oleh Spark tetapi mereka membutuhkan keamanan dan kehandalan yang ada dari platform Hadoop yang sudah matang. Dengan One Platform Initiative Cloudera, Cloudera berada di depan menuju skalabilitas, manajemen dan keamanan Spark. Benar-benar penting bagi Spark untuk menyeberangi perbedaan. Platfora telah menjadi anggota pendiri Program Accelerator Cloudera dan secara penuh disertifikasi oleh Cloudera pada Spark.”
StreamSets
“Cloudera sekali lagi memimpin industri tersebut, mengembangkan Apache Spark dari proyek akademis ke mesin komputasi berskala perusahaan,” kata Arvind Prabhakar, Chief Technology Officer at StreamSets, “Peluncuran Cloudera 5.5 merupakan tonggak utama dan memberikan fitur-fitur yang diinginkan lebih banyak ke komunitas Hadoop lebih luas. StreamSets berkomitmen untuk membuat Spark sebagai platform pengolahan stream yang utama dan mereka juga merasa senang melihat kemajuan Spark Streaming berkat ambil bagian di Program Accelerator Cloudera.”
Syncsort
“Kami melihat ketertarikan besar dari pelanggan kami dalam menggunakan Spark untuk memungkinkan analisis generasi berikutnya, dan mengharapkan pengadopsian Spark perusahaan dipercepat karena inovasi seputar keamanan, skalabilitas, dan manajemen masuk ke pasar, didorong oleh One Platform Initiative Cloudera dan rilis terbaru Cloudera Enterprise 5.5. Sebagai kontributor komunitas Apache Spark dan anggota Program Cloudera Accelerator untuk Spark, kami berharap dapat terus bekerja sama dengan Cloudera untuk membantu organisasi untuk lebih menyadari potensi Spark dengan membuatnya mudah untuk digelar dengan platform integrasi data kami yang “didesain sekali, tapi bisa diterapkan di mana saja”, dan untuk memungkinkan beban kerja streaming seperti internet of things (IoT) melalui integrasi dengan Spark dan Kafka,” kata Tendü Yoğurtçu, General Manager of Syncsort’s Big Data business.
Talend
“Mirip dengan Cloudera, Talend membuat komitmen awal dan mendalam untuk Apache Spark. Kami melihat partisipasi dalam Program Cloudera Accelerator sebagai usaha utama yang akan membantu lebih lanjut menerjemahkan kekuatan mentah dari proyek open source yang penting ini, menjadi kemampuan berkelas perusahaan yang dapat dengan cepat digunakan. Bekerja sama dengan Cloudera, kita sudah melihat keberhasilan di lapangan, sekarang ini terkait dengan cara membantu lebih banyak perusahaan untuk menyadari keunggulan bisnis integrasi data real-time dan analisis.” – Ashely Stirrup, CMO, Talend, Inc.
Trifacta
“Integrasi dengan Spark sangat penting untuk misi kami dalam memberdayakan para analis untuk secara intuitif mengeksplorasi dan mengubah data yang beragam di Cloudera dan fokus pada integrasi berkelanjutan kami dengan teknologi Cloudera,” kata Wei Zheng, VP of Products, Trifacta. “Dengan Spark yang memperkuat visualisasi profiling skala besar dan eksekusi transformasi dalam Trifacta Wrangler Enterprise, kami bisa memberikan pelanggan kami pengalaman pengguna yang sering berubah dengan memanfaatkan kinerja interaktif Spark.”