Por: Ricardo Dortas Schönhofen
Data mining, ou mineração de dados, significa coletar, limpar, processar e obter informações úteis a partir da análise de dados. Existe uma grande variedade de problemas, aplicações, representações de dados e formulações às quais o termo se aplica.
A compilação de dados pelo ser humano não é algo novo. A novidade das últimas décadas é o crescimento exponencial na quantidade de dados gerados e armazenados. Alguns exemplos de diferentes tipos de dados:
- Internet: O número de documentos e de páginas da Web já ultrapassou os bilhões. Os números da “Dark Web”, ou internet invisível, são ainda maiores. Cada vez que um usuário acessa tais documentos, o servidor registra um log desse acesso. A partir desse conjunto de informações é possível criar perfis de comportamento e consumo.
- Interação com usuários: As atividades executadas pelos usuários são registradas e produzem um grande número de dados. Por exemplo, o uso de um telefone gera registros que detalham a ligação, a hora em que ocorreu, o tempo de duração, o local chamado, etc. Esses dados são analisados pelas telcos para tomar decisões a respeito da capacidade da rede, promoções de marketing e vendas, precificação, etc.
- Transações financeiras e comerciais: As transações mais comuns do dia a dia, como pagar com cartão de crédito ou sacar dinheiro no caixa automático, geram dados. Esses dados são minerados para encontrar padrões de uso e alertar para possíveis fraudes.
- Sensores e Internet das Coisas: Uma tendência recente é o desenvolvimento de sensores ligados ao corpo, a máquinas e a aparelhos de qualquer natureza. A quantidade de dados gerada por esses sensores são massivas e abrem um grande campo de exploração para mineração de dados.
Existem diversas ferramentas úteis para fazer data mining. Segue abaixo algumas delas.
- R – https://www.r-project.org/
- RStudio – https://www.rstudio.com/
- Weka – http://www.cs.waikato.ac.nz/ml/weka/
- KNIME – http://www.knime.org/
- RapidMiner – https://rapidminer.com/
- CLUTO – http://glaros.dtc.umn.edu/gkhome/cluto/cluto/overview
- ARMiner – https://www.cs.umb.edu/~laur/ARMiner/
- Gephi – https://gephi.org/
- Pajek – http://vlado.fmf.uni-lj.si/pub/networks/Pajek/
- GeoDa – https://spatial.uchicago.edu/software
Veja também:
- Informações que grandes empresas têm sobre você
- Guia de Acesso rápido ao Python
- Participantes do Mercado de Pagamentos