? Plataforma Apache faísca nuvem ‘Databricks vai público

Chefe de engenharia Ali Ghodsi: Faísca hoje ainda permanece indefinida; Databricks; Depois de executar sua plataforma de cloud-based faísca Apache em um programa fechado de usuários para o ano passado, Databricks diz que o serviço está agora disponível ao público pela primeira vez..

O ambiente hospedado na nuvem, descrito por Databricks como sendo implantado por mais de 150 empresas, visa simplificar a utilização do motor de cluster de computação de código-fonte aberto e reduzir o tempo gasto no desenvolvimento, programação e gerenciamento de cargas de trabalho de ignição complexos.

Databricks chefe de engenharia Ali Ghodsi disse o serviço de nuvem, anteriormente chamado Databricks Nuvem, foi projetado para automatizar interativo exploração, colaboração e produção.

“Se você quiser usar faísca para resolver um problema em dados grande, hoje ainda continua a ser muito evasivo – é quase ciência de foguetes Você tem que ter um monte de máquinas, instale um gerenciador de clusters sobre eles e então você tem de sintonizar faísca no. isso “, disse Ghodsi.

É uma fé cega ou o senso comum que mantém CIOs leais ao mainframe;? MapR, Pentaho anunciar novos lançamentos na Cúpula Hadoop; Mesosfera lança seu OS datacenter baseado em Mesos mais uma versão livre no AWS; quão grande de dados ido mal poderia custar-lhe o seu trabalho; MongoDB acrescenta tie BI, se prepara para o crescimento; Google I / o 2015: aprendizado de máquina apostas Google pode criar uma borda com o Android, aplicativos, nuvem

Uma vez que você tem que levantar e correr, você ainda só tem o mecanismo de execução básica. Você pode querer fazer alguma plotagem, você pode querer fazer exploração interativa. Você pode digitar comandos SQL e agora vai triturar lotes de seus dados em lotes de suas máquinas. Mas, então, como eu realmente traçar esses resultados para que eu possa visualizar?

IBM é oferecer Apache faísca como um serviço através da sua plataforma de nuvem Bluemix e irá implantar milhares de desenvolvedores para trabalhar na estrutura de computação distribuída para grandes análises de dados.

Mesmo quando esses problemas de ajuste e de exploração são resolvidos, os processos resultantes têm de ser colocado em produção.

“Você quer tomar o ser humano fora do circuito e dizer, ‘OK, agora eu só quero essa coisa de só correr em si, para triturar sobre os dados mais recentes que veio na noite passada, mais e mais”, disse Ghodsi.

“Isso também não é parte de faísca ou de qualquer destes motores – Tendo um trabalho de produção, com um programador que automaticamente apenas atravessa este material Databricks dá-lhe todas estas coisas.”.

Faísca começou em 2009 como um projeto de pesquisa UC Berkeley AMPLab para criar um quadro de cluster de computação abordar as cargas de trabalho alvo mal servidas pelo Hadoop. Ele foi aberto em 2010 e no ano passado teve mais de 450 colaboradores. Seus criadores passou a Databricks encontrados em 2013.

Empresa social; LinkedIn revela a sua nova plataforma de blogs; Big Data Analytics; não é a idade de grandes OLAP;? Big Data Analytics; DataRobot visa automatizar baixo pendurado fruto de ciência de dados; Big Data Analytics; fundador MapR John Schroeder desce, COO para substituir

Hoje cedo, a IBM anunciou que está fazendo desencadear uma parte fundamental de seus serviços de nuvem e comércio e estará oferecendo faísca como um serviço em sua plataforma Bluemix desenvolvimento das nuvens.

Seguindo faísca versão 1.4, que se tornou geralmente disponíveis na semana passada, Databricks também planeja oferecer o acesso à linguagem de programação estatística popular, R, permitindo que os usuários de P para trabalhar diretamente em grandes conjuntos de dados por meio da API SparkR.

“De agora em diante você vai ser capaz de código e fazer a sua análise exploratória e escrever seus trabalhos em Databricks em R – isso é para além das línguas que já suportam, que são Python, SQL e Scala”, disse Ghodsi.

Com um novo serviço de análise nuvem revelou no início deste mês, CEO Sharmila Mulligan explica como motor do clearstory está mudando percepções de dados para os usuários comuns.

R, em parte, deve sua popularidade às bibliotecas estatísticos que vêm com a língua, de acordo com Ghodsi, com a comunidade científica de dados dividido em Python e R aficionados.

“As pessoas que vêm de um fundo matemática um pouco mais estatística preferência R e talvez as pessoas com um pouco mais fundo computing pode preferir Python Mas nós não queremos forçar as pessoas a usar um, então agora eles tem acesso a ambos -. E realmente você pode ir entre eles “, disse ele.

“Certamente, se você quer fazer as coisas na nuvem, R tem um monte de suporte embutido agradável para tubulação um display e imediatamente ele traça para si muitas das propriedades estatísticas interessantes dos modelos que você está usando.”

Em março, Databricks introduziu o recurso de novos postos de trabalho, o que apoia a criação de linhas de produção usando cadernos nuvem Databricks, bem como aplicativos independentes que usam Spark.

A empresa também está trabalhando em recursos de segurança e de governança planejadas para o segundo semestre do ano. Esses recursos incluem controle de acesso e cadernos particulares, bem como controle de versão para permitir aos usuários controlar alterações ao código-fonte.

Muitos dos cientistas de dados que usam Databricks querem colaborar ao vivo em um notebook. Eles querem escrever comentários uns para os outros, pois eles querem usar cadernos uns dos outros. Então, uma das coisas que, em seguida, segue-se imediatamente é de versão “, disse Ghodsi.

“Como posso ter certeza de que se alguém veio e mudou partes do meu notebook, como posso ver o que eram as suas alterações, como posso auditoria que, como eu posso ir para uma versão anterior, como posso ver os resultados antes e depois ? ”

Databricks também está planejando para oferecer apoio à plena faísca streaming com processamento em tempo real tolerante a falhas.

LinkedIn revela a sua nova plataforma de blogs

É esta a idade de Big OLAP?

DataRobot visa automatizar fruto maduro da ciência de dados

fundador MapR John Schroeder desce, COO para substituir

Mais sobre big data