Como qualquer nova tecnologia as soluções de Machine Learning (ML) não iam passar em branco no que se refere ao desafio de se implementar e o que estamos vendo é um número cada vez maior de empresas se frustrando na implementação dessa tecnologia.
Existem todos os tipos de obstáculos possíveis que vão desde a qualidade dos dados até a compreensão do que realmente essa tecnologia vai entregar de valor ao negócio. Pretendo discutir aqui os problemas enfrentados pelas empresas, explorando um pouco mais as causas e trazendo algumas ideias de como driblar essa armadilha.
A importância dos dados e a qualidade deles
O primeiro ponto a ser compreendido é que, sem dados, não existe Machine Learning. Do mesmo modo que um estudante não pode aprender sem livros, um algoritmo não pode aprender sem dados. Algumas empresas levam isso tão literalmente que pensam que quantidade de dados já é um passo e não é. Ter quantidade é um fator, mas a qualidade dos dados é o fator crucial.
Sem qualidade nenhum algoritmo irá conseguir retirar nenhum insight. Ao longo dos anos as empresas implementaram diversos sistemas que se tornaram legados e poucas delas se importaram de fato pela qualidade dos dados. As próprias empresas produtoras de software não tinham grandes critérios para qualidade de software. É verdade que ninguém pensava que em alguns anos haveria uma explosão de ferramentas de ML, mas minimamente o cuidado com a qualidade deveria ter sido tomado.
Existem diversos tipos de problemas de qualidade. Alguns são contornáveis e outros infelizmente fazem com o que projeto de ML precise ser parado. E esses são os mais críticos e incluem: lacunas de dados causadas por atualizações de sistemas ou falta de regras de negócio consistentes, inconsistências na rastreabilidade dos dados, como a quebra de integridade dos dados ao longo do tempo e erros primários no desenho das soluções de dados, como a falta de atualização correta das informações após mudanças na estrutura da empresa.
Esses três elementos, juntos ou separados, são suficientes para que um projeto de ML não consiga ser implementado. Pense numa empresa que perde a rastreabilidade de seus pedidos. Como iremos criar o mapa de comportamento de compra naquela empresa que ao longo do tempo foi implementando novos e novos campos e todas as informações do passado estão em branco. Isso destrói qualquer projeto de ML.
Se a empresa passou pelo quesito qualidade, agora vem o segundo ponto: a quantidade de dados.
Desafio 2: quantidade de dados
Ter dados é um fator importante. Algumas empresas acreditam que têm dados suficientes para que um algoritmo de ML possa aprender e gerar insights úteis. No entanto, isso nem sempre é verdade. Algoritmos de ML, especialmente aqueles que preveem tendências ou padrões, requerem grandes volumes de dados históricos para serem eficazes.
Não existe uma conta pronta para determinar a quantidade de dados necessária para que um algoritmo consiga gerar insight. Vai depender muito da finalidade do projeto e de quais variáveis serão usadas para determinar esse insight ou comportamento. Desenvolver soluções de ML envolve uma complexidade tecnológica considerável. É necessário contar com profissionais capacitados e experientes em áreas como ciência de dados, engenharia de dados e desenvolvimento de software. Além disso, a escolha das ferramentas e plataformas adequadas para implementar e gerenciar soluções de ML pode
ser um desafio por si só.
Projetos de Machine Learning não devem ser tratados apenas como projetos de TI. Em vez disso, eles devem ser de propriedade do negócio, aliás todo projeto Data Analytics deve ser de propriedade do Negócio e não da TI.
Abordagem de implementação
É importante começar pequeno ao implementar projetos de ML. Uma abordagem de projeto mínimo viável (MVP). Acho que MVP nunca fez tanto sentido como que para projeto de ML. Desenvolver uma solução básica, em um ambiente controlado, que possa ser refinada e expandida com base nos resultados e aprendizados obtidos é fundamental para que possa ser medido o desempenho do próprio projeto.
Implementar soluções de Machine Learning nas organizações pode ser uma tarefa complexa e desafiadora. No entanto, ao abordar os principais desafios – qualidade e quantidade de dados, complexidade tecnológica, envolvimento do negócio e a abordagem de implementação – as empresas podem aumentar suas chances de sucesso.
Algumas recomendações para superar esses desafios incluem:
Defina claramente qual é o objetivo do projeto de ML. Você quer prever vendas mensais, diárias, comportamento do cliente? Quanto mais granular for seu objetivo, mais dados serão necessários.
O segundo ponto é escolher o modelo de ML correto. Cada modelo tem diferentes requisitos de dados. Exemplo: se você quer fazer previsão de vendas temporais, o modelo ARIMA pode ser indicado. Tenha dados históricos relevantes. Se os dados não forem relevantes, não faz sentido gastar tempo ou dinheiro com o projeto. Dê passos para trás e reveja a qualidade dos dados.
Discuta seu projeto com profissionais de dados. Deixe claro seu objetivo. Isso será importante para que eles consigam estabelecer a avaliação do modelo, curva de aprendizado e divisão de dados.
Invista na melhoria da qualidade e quantidade de dados disponíveis, estabelecendo regras de negócio consistentes e garantindo a integridade dos dados ao longo do tempo. Não permita que versões novas dos softwares quebrem a integridade temporal dos dados. Garantir a colaboração entre as equipes de TI e de negócios, com o envolvimento ativo dos
líderes e profissionais de negócios no projeto fará toda diferença no projeto. A TI sabe acelerar o projeto e o Negócio é quem sabe para essa aceleração vai servir.
Ao abordar esses desafios de maneira sistemática e estratégica, as empresas podem maximizar o potencial das soluções de Machine Learning para gerar valor e impulsionar a inovação.
A chave é abordar o ML com uma mentalidade aberta e adaptativa, aprendendo com os desafios e aproveitando as oportunidades que ele oferece, mas sem renunciar à qualidade dos dados.
*por Willian Domingues, CIO na Paschoalotto, professor convidado Pós-Graduação no Curso de BIGDATA e Business Intelligence da FIAP, professor convidado no Startse University e MBA USP/Esalq e especialista com profundo conhecimento em Inteligência Artificial, Machine Learning, Big Data e outras tecnologias inovadoras.