Como evitar a transformação de um “data lake” num “pântano”

Como evitar que os “data lakes” fiquem atolados de dados inúteis? Uma especialista explica o que fazer para apenas armazenar dados com valor.

Alicerçadas em tecnologias como a Apache Hadoop, muitas as organizações têm procurado construir “data lakes“, “lagos de dados”, numa tradução literal. São plataformas de gestão de dados para toda a empresa que lhes permitem armazenar todos os seus dados em seu formato nativo. Trazem a promessa de quebrar silos de informação fornecendo um único repositório de dados que a organização inteira pode usar para tudo, desde analítica, até a extracção de dados.

Em bruto e mesmo  sem um governo regular, os “data lakes” são apresentados como grande oportunidade de captação de informação e um remédio. Mas Avi Perez, especialista em software de BI da Pyramid Analytics,  nota que em muitas empresas esses “lagos” estão a deteriorar-se em “pântanos de dados”, repositórios maciços de dados completamente inacessíveis aos utilizadores.

“As bases de dados são caras”, diz e “os data lakes respondem fundamentalmente a esse problema”, argumenta. Não quer dizer que a ideia por trás deles seja má. Mas criar um repositório útil exige reflexão. Por isso, Avi Perez recomenda a adopção de três princípios.

‒ Recolher menos dados, pelo menos no início

Perez diz que um dos maiores erros que as organizações fazem é recolher dados em demasia, simplesmente porque podem. Armazenar dados em Hadoop é barato o suficiente para que seja considerado como gratuito.

Mas o grande volume de dados que se acumula pode dificultar o acesso a elementos capazes de fornecer informações valiosas. “Eu acho que uma maneira de evitar isso é trabalha com a noção de que apenas porque é barato armazenar os dados, não quer dizer que seja barato usá-los. Na verdade, pode ser bastante até caro”, enfatiza.

‒ Adoptar uma estratégia clara para a aprendizagem automática

Mesmo com um conjunto de dados focado, a obtenção de informações a partir de dados num grande escala requer automação. “É preciso um sistema automatizado para limpá-lo”, diz Perez.

“AI, aprendizagem automática, aprendizagem profunda, são soluções mágicas para navegar através das suas informações. Eu mantenho que a maneira mais fácil de obter valor de um enorme ‘data lake’ de 5 PB é começar por ter uma técnica para aprender com eles”.

Perez recomenda a escolha de um conjunto de dados que a empresa já conheça e seleccione uma técnica de aprendizagem automática. Provavelmente será necessário adquirir novas competências para fazê-lo com eficácia, seja através da formação ou contratação de recursos humanos.

“A aprendizagem automática é ‘magia negra’”, afirma. “Não é fácil de fazer. São necessárias de competências muito específicas”.

‒ Determinar o problema de negócio a resolver

O círculo completa-se: é necessário ter uma visão clara sobre o problema de negócio que se está a tentar resolver. Tendo um objectivo em mente, deve ser relativamente fácil inserir os dados que uma empresa precisa de recolher. Escolher a melhor técnica de aprendizagem automática também será mais fácil para obter as informações pretendidas com os dados.

Como exemplo, adopta o caso de um retalhista de grande dimensão que pretende saber que tipo de clientes estão a entrar nas suas lojas. A empresa pode captar fotografias de clientes que entram nas suas lojas e, em seguida, usar uma Convoluted Neural Network (CNN), rede neural de aprendizagem profunda especializada em visão por computador, para processar as imagens. A CNN pode determinar se uma imagem individual é de um homem ou mulher , de uma criança ou de um adulto, de pessoa idosa ou jovem, entre outros.

“Depois de se fazer isso pode-se integrar o processo com uma iniciativa de negócios e dar a capacidade aos gestores empresariais”, diz Perez. “Isso vai ajudar a determinar se é preciso fazer mais marketing para homens porque não se está a receber homens suficientes “. É preciso ter uma estratégia clara com antecedência. Se não se fizer isso, a simples recolha de elementos pode ser negativo para o processo”.

Desenvolvendo-se  uma capacidade, muitas vezes será necessário fazer iterações sobre ela para fornecer ao negócio soluções ainda mais específicas.

Autores
O seu comentário...

*

Top