Machine Learning e Big Data na Transformação Digital

Posted on 20 jul 2022

Machine Learning e Big Data na Transformação Digital

A Transformação Digital redefine o estado atual e o futuro dos negócios. Aplicações e infraestrutura muitas vezes são um desafio para as organizações. Contudo, no cenário atual, ou as instituições crescem com a adoção tecnológica ou eventualmente irão desaparecer.

O Big Data provê diversas oportunidades atrativas em que, ao serem adotadas dão sustentação às decisões e investimentos. Ele aumenta a produtividade ao melhorar eficiência, responsividade ao ambiente interno e externo e assertividade. Para extrair o máximo dessa quantidade enorme de informações, o Machine Learning entra para gerar resultados e insights usáveis no setor necessário.

Memora Processos Inovadores

MACHINE LEARNING E BIG DATA NA PRÁTICA:

1. ANÁLISE DE REDES SOCIAIS

Folksonomia, ou social tagging, é uma nova maneira de compartilhar e categorizar conteúdo online que permite aos usuários expressar seus pensamentos, percepções e sentimentos em relação a diversos conceitos. O conteúdo é conectado por meio de palavras-chave geradas pelo usuário – “tags” – e é prontamente pesquisável por meio dessas tags. Um bom exemplo são as hashtags utilizadas no Twitter, Tiktok e Instagram.

A rica informação associativa das tags oferece aos profissionais de marketing novas oportunidades para inferir redes associativas de marca. As informações contidas nas tags sociais podem atuar como uma medida proxy para o desempenho da marca auxiliando a prever a avaliação financeira de uma empresa.

Outro ponto, é compreender redes de influência a partir da análise dos seguidores. Um estudo de A. Culotta e J. Cutler, Mining Brand perceptions from Twitter social networks, forneceu um método confiável, escalável e flexível para monitorar a percepção das marcas em mídias sociais como o Twitter, utilizando tanto o Big Data quanto o Machine Learning.

2. TOMADA DE DECISÃO EM VENDAS

Prever o comportamento dos consumidores é um grande desafio, por um problema complexo e não linear, em que diversos fatores são importantes. O artigo Predicting customer demand for remanufactured products: A data-mining approach demonstra o uso de técnicas avançadas de machine learning, podendo prever a demanda de produtos com alta precisão e elucidando o efeito não linear de alguns fatores do mercado online para o prognóstico da demanda do cliente.

Já para os adeptos da pesquisa tradicional com o cliente, quando produtos com atributos muitos são avaliados, como câmeras, celulares e computadores, elaborar um questionário eficaz e eficiente pode ser um problema.

Para contornar isso, o machine learning pode ser utilizado para modificar o questionário conforme o consumidor vai respondendo as perguntas, e incrementar sua precisão a cada pesquisa realizada. O estudo Consumer preference elicitation of complex products using fuzzy support vector machine active learning fornece um framework que é facilmente implementado.

3. CONTROLE DE QUALIDADE

O gerenciamento e controle da qualidade é uma das tarefas de gerenciamento de operações mais importantes na indústria. A principal preocupação desta tarefa é a resolução de problemas de qualidade, porque os problemas de qualidade precisam ser resolvidos desde a raiz, caso contrário, eles podem ocorrer novamente.

No centro da solução de problemas de qualidade, a análise de causa raiz (RCA) identifica as causas subjacentes dos desvios de qualidade, garante as direções corretas de outras ações e evita a recorrência de problemas de qualidade. A RCA é uma investigação estruturada para identificar as causas subjacentes de falhas recorrentes. No entanto, os problemas de qualidade são muitas vezes muito complicados devido à alta complexidade dos produtos e cadeias de suprimentos nas indústrias de manufatura de alta tecnologia.

O framework desenvolvido no paper A big data-driven root cause analysis system: Application of Machine Learning in quality problem solving define, constrói e descreve vários e diferentes tipos de problemas de qualidade. Emprega ainda classificadores de Machine Learning para detectar as possíveis causas-raiz de problemas de qualidade definidos. Por fim, a aplicação em um caso mostra que o método proposto pode identificar as causas-raiz de mais de 12.000 problemas de qualidade em segundos com o modelo treinado e a taxa de precisão é de até 90%.

Machine Learning e Big Data na Transformação Digital

ENTENDENDO MAIS:

O Big Data pode ser pensado e estruturado em quatro eixos centrais, 4 Vs, que também constituem focos de dificuldade para o Machine Learning: Volume, Veracidade, Velocidade e Variedade.

O grande volume pode colocar dificuldades para o poder de processamento, dificuldades de armazenamento e problemas com a dimensão e variedade dos atributos presentes. A variedade gera dados “sujos” e “barulhentos”, muitas vezes heterogêneos demais que precisam ser retrabalhos antes de serem usados pelo ML.

A urgência de ter insights rápidos e precisos, muitas vezes em tempo real, coloca a necessidade de modelos de ML, que tradicionalmente operam com dados localizados em apenas uma memória, incorporarem a possibilidade de trabalhar com streams, clusters e nuvens, é uma questão de velocidade. Pelo fato do Big Data ser adquirido por dados de tráfego de usuários, a origem difusa e não direcionada pode gerar dados não confiáveis para a análise, comprometendo a veracidade.

Contudo, há alguns paradigmas de aprendizado de máquina relevantes no contexto de Big Data, que abordam os desafios identificados.

Deep Learning:

O Deep Learning é uma abordagem da família de representative learning. Esse tipo de algoritmo recebe esse nome pelo fato de usar representações de dados em vez de recursos de dados explícitos para executar tarefas. Ele transforma dados em representações abstratas que permitem que os recursos sejam aprendidos.

O Deep Learning usa um processo de aprendizado hierárquico semelhante ao das redes neurais para extrair representações de dados dos dados. Ele faz uso de várias camadas ocultas e, à medida que os dados passam por cada camada, são aplicadas transformações não lineares. Essas representações constituem abstrações complexas de alto nível dos dados, portanto, esse tipo de aprendizado é uma solução ideal para o problema de classificação e reconhecimento de imagens.

Além disso, a dependência de uma representação abstrata também torna esses algoritmos mais flexíveis e adaptáveis à variedade de dados. Como os dados são abstraídos, os diversos tipos e fontes de dados não têm forte influência nos resultados do algoritmo, tornando o aprendizado profundo um ótimo candidato para lidar com a heterogeneidade de dados.

No contexto de Big Data, isso é uma grande vantagem, pois torna os algoritmos menos sensíveis a desafios de veracidade, como dados sujos, barulhentos e incertos. Porém, são suscetíveis ao problema da velocidade dos dados, pois não são computacionalmente eficientes. Para dados de alta dimensão ou grande número de amostras, tais algoritmos podem até se tornar inviáveis, tornando o aprendizado profundo suscetível à maldição da dimensionalidade.

Online Learning:

Por responder bem ao processamento em larga escala por natureza, o Online Learning é outro paradigma de aprendizado de máquina que tem sido explorado para preencher as lacunas de eficiência criadas pelo Big Data. Ele fornece fluxos de dados para treinamento e os modelos podem aprender uma instância por vez.

Esse paradigma alivia a carga computacional e o desempenho de processamento porque os dados não precisam ser totalmente mantidos na memória. Isso permite o processamento de volumes muito grandes de dados e facilita o processamento em tempo real. Além disso, como não exige que todos os dados estejam presentes de uma só vez ou localizados no mesmo local, esse paradigma corrige problemas de disponibilidade e localização diversa dos dados.

Além disso, o ‘‘online’’ se refere ao fato de que esse paradigma mantém continuamente seu modelo; o modelo pode ser modificado sempre que o algoritmo achar adequado. Sua natureza adaptativa torna possível lidar com uma certa quantidade de dados sujos e barulhentos.

Ensemble Learning:

O ensemble learning combina vários conjuntos de máquinas de aprendizado para obter melhores resultados de aprendizagem (por exemplo, previsão, classificação) do que aqueles obtidos de uma máquina só.

Normalmente, o resultado geral é determinado por um processo de votação entre os resultados ponderados de máquinas individuais. Essas máquinas podem ser semelhantes ou de categorias completamente diferentes.

O mecanismo de ponderação atribui um valor a cada ponto de saída das máquinas e os combina. O processo de votação pode ser implementado de forma direta agregando diretamente os valores dos pontos de aprendizagem ou através do uso de técnicas estatísticas para obter um valor combinado dos resultados de aprendizagem que podem levar a um melhor desempenho de aprendizagem.

Existem duas maneiras principais de aplicar o ensemble learning: a primeira treina diferentes máquinas, cada uma no conjunto de dados completo, enquanto a segunda divide o conjunto de dados e treina cada máquina (igual ou diferente) apenas em um subconjunto. A segunda abordagem tem potencial no contexto de Big Data porque pode acelerar e melhorar o processo de aprendizagem.

Quer saber mais sobre como utilizar ML em uma solução única e personalizada para a sua organização? Entre em contato conosco.