Não se apresse para implementar Machine Learning

Uma abordagem simples pode dar conta do recado.

Por Matt Asay

Acontece que a melhor maneira de fazer Machine Learning (ML) às vezes é não fazer nada. Mesmo. De facto, de acordo com o cientista da Amazon, Eugene Yan, “a primeira regra da aprendizagem automática [é] começar sem aprendizagem automática.”

Sim, é bom apresentar modelos de ML meticulosamente elaborados ao longo de meses de árduo esforço. Também não é necessariamente a abordagem mais eficaz. Não quando existem métodos mais simples e acessíveis.

Pode ser uma simplificação exagerada dizer, como o cientista de dados Noah Lorang fez há anos, que “os cientistas de dados na maioria só fazem aritmética”. Mas ele não está muito longe, e certamente ele e o Yan têm a certeza de que, por mais que possamos complicar o processo de pôr os dados a funcionar, a maior parte do tempo é melhor começar pequeno.

Complexidade exagerada

Os cientistas de dados são muito bem pagos. Por isso, pode ser tentador tentar justificar este pagamento envolvendo coisas como análise preditiva em jargão complicado e modelos pesados. Mas não. A visão de Lorang sobre a ciência dos dados é tão verdadeira hoje como quando a proferiu há alguns anos: “Há um pequeno subconjunto de problemas de negócio que são melhor resolvidos através da aprendizagem automática; a maioria deles só precisa de bons dados e uma compreensão do que isso significa.” Lorang recomenda métodos mais simples, como “consultas SQL para obter dados,… aritmética básica nestes dados (calculando diferenças, percentil, etc.), representando graficamente os resultados, e [escrevendo] parágrafos de explicação ou recomendação.”

Não estou a sugerir que seja fácil. Estou a dizer que a aprendizagem automática não é onde se começa quando se tenta obter informações dos dados. Também não é necessário que grandes quantidades de dados sejam necessárias. Na verdade, como argumenta a CEO Katelyn Gleason, é importante “começar com os pequenos dados [porque] foram as anomalias oculares que me levaram a algumas das minhas melhores descobertas”. Às vezes, pode ser o suficiente para traçar distribuição para verificar padrões óbvios.

Sim, é verdade: os dados podem ser “pequenos o suficiente” para um ser humano detetar padrões e descobrir insights.

Não admira, pois, que o cientista de dados da iRobot Brandon Rohrer sugira descaradamente: “Quando tiveres um problema, cria duas soluções – um transformador bayesiano profundo a correr em kubernetes com múltiplas nuvens e uma consulta SQL baseada numa pilha de pressupostos extremamente simplificadores. Ponha um no seu currículo e o outro em produção. Todos vão para casa felizes. “

Mais uma vez, isto não quer dizer que nunca se deve usar Machine Learning, e definitivamente não é um argumento que a ML não oferece nenhum valor real. Longe disso. É apenas um argumento contra começar com ML.

Humanos conhecendo dados

Primeiro, nota Yan, é importante reconhecer como é difícil extrair significado dos dados, dado os ingredientes essenciais: “É preciso dados. Precisa de um pipeline robusto para suportar os fluxos de dados. E acima de tudo, vai precisar de rótulos de alta qualidade. “

Por outras palavras, as entradas são suficientemente complicadas para que possa não ser particularmente útil começar a lançar modelos ML para o problema. Nessa altura, está a ficar a conhecer os seus dados. Tente resolver o problema manualmente ou com heurística (métodos práticos ou atalhos). Yan aponta este raciocínio do engenheiro de Machine Learning Do GitHub, Hamel Hussain: “Isto vai forçá-lo a familiarizar-se intimamente com o problema e os dados, que é o primeiro passo mais importante.”

Assumindo que está a lidar com dados tabulares, Yan diz que vale a pena começar com uma amostra dos dados para executar estatísticas, começando com simples correlações, e visualizando os dados, talvez usando gráficos de dispersão. Por exemplo, em vez de construir um complicado modelo de aprendizagem automática para recomendações, poderia simplesmente “recomendar itens de desempenho melhores do período anterior”, argumenta Yan, e procurar padrões nos resultados. Isto ajuda o praticante de ML a familiarizar-se com os seus dados, o que, por sua vez, irá ajudá-lo a construir melhores modelos, se necessário.

Quando o Machine Learning se torna necessário ou pelo menos aconselhável?

De acordo com Yan, Machine Learning começa a fazer sentido quando manter o seu sistema heurístico não-ML torna-se excessivamente complicado. Por outras palavras, “uma vez que se tem uma linha de base não ML que funciona razoavelmente bem, e o esforço para manter e melhorar essa linha de base supera o esforço de construção e implantação de um sistema baseado em ML.”

Não há método cientifico que preveja quando isso acontece, é claro, mas se a sua heurística já não é atalhos práticos e, em vez disso, continua a decompor-se, é hora de considerar a aprendizagem automática, especialmente se tiver sólidos pipelines de dados e etiquetas de dados de alta qualidade, indicando bons dados.

Sim, é tentador começar com modelos complexos de aprendizagem automática, mas sem dúvida uma das competências mais importantes que um cientista de dados pode ter é o senso comum, saber quando confiar na análise de regressão ou em algumas questões se/então, em vez de ML.

Artigos relacionados

O seu comentário...

*

Top