Como é aplicada a ciência de dados aos terminais da Bloomberg?

Os especialistas em informação financeira da Bloomberg utilizam machine learning e ciência dos dados para permitir aos utilizadores encontrar facilmente a informação relevante que procuram.

A Bloomberg emprega centenas de cientistas dos dados que têm como objectivo manter os utilizadores agarrados aos seus terminais ubíquos, os teclados e monitores que dão às equipas financeiras acesso a enormes quantidades de informação sobre os mercados financeiros

Em segundo plano, o terminal da Bloomberg consolida 80 mil fontes de notícias (“news wires”), 4000 indicadores e 370 mercados, navegando entre 60 mil milhões fontes de dados para manter utilizadores do terminal actualizados sobre os mercados financeiros globais. A tarefa dos cientistas de dados da Bloomberg é tornar este mar de informações visível e relevante para todos os seus 325 mil assinantes.

Gideon Mann é o responsável máximo de “data science” na Bloomberg. A sua função é gerir toda a ciência de dados que aconteceu nesta grande e variada organização.

“A maior parte do trabalho em ciência dos dados é a construção de produtos”, disse Mann ao Computerworld do Reino Unido. “O meu papel é gerir as iniciativas estratégias e técnicas em três áreas fundamentais: processamento de linguagem natural, pesquisa e aprendizagem das máquinas que são incorporados nos produtos que chegam ao terminal”.

O objectivo final da Bloomberg é disponibilizar “quaisquer dados relevantes para a indústria no terminal, de uma forma normalizada”, explicou Mann.

Terminais da Bloomberg

Quando se fala em Bloomberg, associa-se normalmente a um grupo de media. No entanto, as assinaturas do terminal e todos os serviços de dados associados – que custam cerca de 20 mil libras (mais de 23 mil euros) por ano – são utilizadas por centenas de profissionais da banca, dos mercados financeiros, analistas e jornalistas especializados, são um negócio fundamental para a Bloomberg.

A Bloomberg começou por experimentar a “machine learning” para análise de sentimentos há cerca de uma década.

No que toca à ciência dos dados, a Bloomberg começou por experimentar a “machine learning” para análise de sentimentos há cerca de uma década. Mann admite que levou algum tempo a conseguir o total envolvimento da organização na aprendizagem de computador – a técnica de ciência computacional para ensinar a máquina a aprender e a adaptar-se de instantaneamente à medida que é alimentada por grandes quantidades de dados – mas o sucesso deste projecto legitimou-o na gestão de topo.

“Foram precisos vários anos para que a empresa compreendesse que esta competência em particular leva algum tempo”, explicou. “Os engenheiros podem fazê-lo, mas não é fácil. Então, a empresa começou a empenhar-se e a contratar e a investir em programadores quantitativos”. Actualmente, a Bloomberg tem entre cem e duzentos especialistas em ciência dos dados na organização, segundo Mann.

Assim que a empresa comprovou a utilidade da técnica, e desenvolveu as competências internamente, começou a aplicar a técnica na pesquisa interna no terminal e melhorou a descoberta de dados através de algoritmos cada vez melhores.

Mann quer utilizar técnicas com a visão computacional e o processamento de linguagem natural para melhorar a profundidade da informação financeira disponível através do terminal.

Um projecto mais recente utilizou a visão do computador para seleccionar dados de tabelas profundamente embebidos em relatórios e formulários financeiros, algo que anteriormente era executado manualmente por programadores.

“O mais eficiente é utilizar técnicas de reconhecimento de objectos nessas tabelas”, explica Mann. “Para que reconheça os limites da tabela e transporte determinadas colunas e linhas para as nossas bases de dados”. Tal significa mais precisão e velocidade.

De aqui em diante, Mann quer utilizar técnicas com a visão computacional e o processamento de linguagem natural para melhorar a profundidade da informação financeira disponível através do terminal. O objectivo é permitir aos utilizadores a fazer pedidos ao terminal utilizando linguagem natural, em vez utilizar comandos específicos.

“Muitos dos dados financeiros são números, mas há muitas coisas que acontecem no mundo que são pertinentes para o sector financeiro e que são expressas noutras linguagens, sejam novas histórias que geramos ou agregamos, comunicados de imprensa ou documentos que as empresas divulgam directamente”, e até declarações de outras entidades, detalha Mann. Tudo isso pode ter efeitos dramáticos e provocar mudanças no mercado, explica ainda.

“Assim, a maior parte da ciência de dados e do trabalho de “machine learning” que fazemos é o processamento de linguagem, aplicando uma estrutura sobre esta.

Contratação

Mann acredita que a Bloomberg tem vindo a melhorar a contratação de cientistas de dados ao longo dos anos, à medida que a organização tem crescido e compreendido que tipo de pessoas precisa – principalmente PhD em ciência computacional. “Gastamos muita energia nestas contratações”.

“Gastamos muita energia nestas contratações. Sabemos o que queremos e procuramos e, ao longo dos anos, temos melhorado significativamente a qualidade dos candidatos”.

“Sabemos o que queremos e procuramos e, ao longo dos anos, temos melhorado significativamente a qualidade dos candidatos”, explica Gideon Mann. “Sempre foram muito bons, mas a mudança tem-nos permitido contratar pessoas com uma combinação de competências que está muito mais próxima do que necessitamos, reduzindo a formação que precisam. Penso que sabemos melhor que pessoas precisamos e onde temos de as ir buscar e de que universidades estão a sair”.

Agora, Mann está a levar a estratégia um pouco mais longe “Antes tínhamos a ideia de que cada um dos programadores quantitativos tinha de saber fazer tudo”, explicou. “Recolher, tratar e estruturar dados, fazer suporte de infra-estrutura, construir modelos de aprendizagem computacional, colocar os sistemas em produtivo, tomar conta deles e corrigi-lo.

Hoje, quer equipas mais pequenas de especialistas a trabalhar em projectos. Por exemplo, um engenheiro de dados, cientistas de dados e engenheiros de produção a trabalhar num produto específico no terminal.

Reconhece que a indústria está a mudar tão rapidamente que laços fortes com a academia são essenciais para se manter a par das mais recentes tendências tecnológicas.

Mann passa muito do seu tempo a interagir com a academia, quer através de publicações, convidando mensalmente oradores, mensalmente, quer através do seu próprio programa de bolsas de estudos, promovendo igualmente a participação das equipas técnicas em conferências.

“Enviamos imensas pessoas a conferências académicas, com o principal objectivo de que aprendam e sejam desafiados pela experiência do que está a acontecer na academia”, detalhou. Por exemplo, a Bloomberg inscreveu recentemente, já este ano, 44 colaboradores num simpósio sobre “machine learning”, em Nova Iorque.

Open source

Gradualmente, a Bloomberg tem vindo a passar de sistemas proprietários e de fabricantes para soluções de código aberto como o Apache Spark ou o Solr.

Em termos de ferramentas, a Bloomberg tem vindo sustentadamente a passar de sistemas de recolha, processamento e pesquisa de dados proprietários e de fabricantes para para soluções de código aberto como o Apache Spark ou o Solr. Mann admite que passar de software de fabricantes e proprietário representou uma mudança de cultura.

“Quando se fala sobre software livre não se faz a analogia com uma “cerveja grátis (free)” mas com “livres (free) como cachorrinhos”, porque o software precisa, tal como estes, de muito amor e cuidados”, explica, acrescentando que as pessoas na Bloomberg viram, eventualmente, as vantagens de contribuir para o “open software” e a sensação de controlo que implica.

“O open source mudou de facto a maneira de fazer negócios”, detalhou. “Tradicionalmente construíamos tudo de raiz, por exemplo tecnologia de geração de bases de dados, o que criava constrangimentos de velocidade e de fiabilidade”.

“Como o processamento de big data, ao longo dos últimos cinco a 10 anos, o impacto do Hadoop e agora do Spark deu-nos um novo conjunto de ferramentas e estamos a investir elevados montantes em ambos. Chegámos a estar fortemente envolvidos com a HBase, mas agora estamos mais interessados no Spark. Não sei se somos um “early adopter”, mas estamos totalmente envolvidos”, conclui.

Autores
Tags

Artigos relacionados

O seu comentário...

*

Top