O trabalho feito sobre os 2,6 TB da “Panama Papers”

Na última segunda-feira, o International Consortium of Investigative Journalists (ICIJ) disponibilizpou um conjunto de informação preparado para pesquisa, com mais de 200 mil nomes de empresas envolvidas.

Mar Cabra_credit-antoniodelgado-100658287-destA investigação “Panamá Papers” tornou-se um fenómeno mundial e na última segunda-feira, o International Consortium of Investigative Journalists (ICIJ) colocou online, por volta das 19 horas (Lisboa), um acervo de informação em cloud computing, preparado para ser pesquisado por quem quiser. Constam do conjunto, 200 mil nomes de empresas envolvidas em processos da Mossack Fonseca.

É uma parte dos 2,6 terabytes (TB) de dados, dos 11,5 milhões de documentos, geridos, organizados e analisados pelo consórcio. A jornalista espanhola, Mar Cabra, participou na investigação e explicou, em entrevista concedida à Computerwoche (grupo IDG), no mês de Abril, como foi estruturado esse trabalho.

Durante um ano a equipa foi lançando as bases técnicas.

Computerwoche ‒ Como foi possível analisar os dados e prepará-los para pesquisa?

Mar Cabra ‒ Esta é a nossa quarta investigação com base em fugas de informação do mundo offshore. Aprendemos ao longo dos anos que, no início de cada investigação como esta, precisamos e passar tempo a entender os dados,à nossa frente.

Por isso, passámos um bom par de meses na compreensão dos dados e dos seus diferentes formatos, para entender como poderíamos processá-los. Usámos plataformas que nós utilizados nos inquéritos anteriores, mas melhorados para trabalhar com estas quantidades de elementos.

A primeira coisa que percebemos é que precisávamos de uma plataforma para alojar todos os documentos. Infelizmente, um terço dos documentos eram imagens em PDF ou em TIF. Por isso, tivemos de criar uma cadeia de processamento complexo com reconhecimento óptico [de caracteres] para extrair o texto dos documentos.

E depois basicamente indexámos esses documentos e coloca-mo-los numa plataforma de cloud que nos permitiu pesquisar os documentos a partir de qualquer parte do mundo.

Ao mesmo tempo, percebemos que tínhamos também documentos da base de dados interna da Mossack Fonseca, incluindo mais de 200 mil empresas em paraísos fiscais em 21 jurisdições. Portanto, precisávamos de outra ferramenta para visualizar os dados.

Nesse sentido, decidimos mudar essa base de dados para a Neo4j [base de dados gráfica] e, em seguida, alimentar com ela, o software Linkurio.us permitiu visualizar gráficos muito facilmente e ver as conexões entre empresas, beneficiários, accionistas e todos os seus endereços. Foram as duas principais plataformas que tínhamos para os repórteres trabalharem nos  2,6 terabytes de informação.

CW ‒ Que partes do trabalho foram automatizadas, o que tinha de ser feito manualmente?

MC ‒ Nada foi feito automaticamente. Quer dizer, o processamento de 2,6 terabytes de informação, em 11,5 milhões de ficheiros leva um longo tempo. Tivemos de usar muitos recursos a melhorar as plataformas que estávamos a utilizar. Uma coisa que foi preciso ter em mente é que o ICIJ temos uma grande diversidade de utilizadores.

Temos os jornalistas que são muito bons no seu trabalho, mas não com a tecnologia.E temos os jornalistas mais preparados para as tecnologias, conhecedores de tecnologias de cifra e de computadores, alguns dos quais  são até programadores. Assim, em todas as ferramentas, era preciso ter em conta esses públicos.

Para a plataforma de busca de documentos precisávamos de algo que permitisse apenas procurar a partir de uma caixa de pesquisa – como no Google – mas que também possibilitasse consultas mais complexas como a pesquisa de expressões e padrões relacionados com contas bancárias e documentos de identificação. A mesma coisa no Linkurio.us e Neo4j.

Um aspecto positivo do Linkurio.us é que ele permite visualizar dados gráficos com muita facilidade. Toda gente consegue trabalhar com pontos.

Assim, os jornalistas menos familiarizados  com tecnologia podem simplesmente clicar em pontos, para vários outros pontos e conexões aparecerem. Consideram-no muito útil porque é muito intuitivo.

No entanto, o  Linkurio.us e o Neo4j estão integrados de tal forma que os utilizadores mais avançados podem fazer consultas em Cypher ‒  linguagem de Neo4j ‒  que na verdade são como se pedíssemos “mostre-me todas as pessoas ligadas a essa pessoa dentro de dois passos” ou “mostre-me todas as pessoas ligadas a mais de vinte empresas”. Isso foi muito importante para configurar a plataforma de uma forma que os dois tipos de jornalistas pudessem trabalhar com ela.

Investimos num programador a tempo inteiro para melhorar a plataforma de documentos e processá-los documentos durante um ano inteiro.

CW ‒ Qual foi o maior desafio no processo?

MC ‒ O processamento. Tivemos de criar uma cadeia muito complexa, que seria basicamente levar documentos e perceber se as máquina podiam estruturar o texto.

Se ele não conseguisse era preciso enviar os documentos para o reconhecimento de caracteres e, em seguida, colocá-los num índice. Fizemos isso com processamento paralelo usando 30 a 40 máquinas em cloud computing . Se tivéssemos só uma fila de documentos, teria levado uma eternidade.

CW ‒ Referiu-se a melhorias das plataformas. Como foram melhoradas?

MC ‒ Foi especial para a ICIJ, dado existirem tantos documentos em muitos formatos diferentes. Por exemplo, alguns jornalistas queriam ter uma funcionalidade que lhes permitisse alimentar a plataforma com uma lista de nomes do seu país e obter uma lista das pessoas de fora que fazem parte dos documentos. Por isso, desenvolvemos esse recurso de “batch searching”.

Introduz-se uma folha de cálculo com nomes e um par de minutos mais tarde obtém-se uma lista de resultados. Tivemos de melhorar os instrumentos com características que nós não precisámos em investigações anteriores.

CW ‒ Quantas pessoas do ICIJ estão ligadas ao projecto Panamá Papers, no lado técnico?

MC ‒ O ICIJ tem uma pequena equipa de 12 pessoas, uma equipa mista de programadores e jornalistas. Há três programadores que cuidam das questões técnicas. Um programador estava focado nos dados não estruturados nos documentos, outro nos dados estruturados, Linkurio.us e Neo4j e na análise dos dados.

CW ‒ Quais serão os próximos passos com o projecto do Panamá Papers a partir de um ponto de vista técnico?

Cabra ‒ No início de maio, vamos divulgar os nomes de mais de 200 mil empresas em paraísos fiscais relacionadas com a Mossack Fonseca. Vamos colocar isso em cloud computing no nosso site para todos usarem.

Já temos no site uma parte de “offshore leaks” onde já colocámos os nomes de centenas de milhares de empresas offshore. Nós vamos adicionar os dados da “Panamá Papers” a isso.

Acredito que será um grande passo, porque milhares de pessoas vão usar essa base de dados.

CW ‒ Porquê?

MC ‒ Do que produzimos nos últimos anos, a “Panamá Papers” é que tem tido mais sucesso. Acho que as pessoas vão usá-la muito. Os dados disponibilizados em Junho de 2013, foram bastante usados pelas autoridades fiscais. Por exemplo, na Coreia do Sul recuperaram milhões de dólares de impostos não pagos.

(Os jornalistas do ICIJ e do Süddeutsche Zeitung usaram também software de analítica de dados fornecido por uma empresa australiana, denominada Nuix).

Autores
O seu comentário...

*

Top