AULA 05 - Data Mining Flashcards

(5 cards)

1
Q

Data Mining

A

Data Mining

– Também chamada de Mineração de Dados ou Prospecção de Dados, trata-se do processo de explorar grandes quantidades de dados à procura de padrões consistentes.

– Por meio do Data Mining é feita a aplicação de técnicas estatísticas capazes de fazer uma varredura em uma quantidade massiva de dados em busca de padrões impossíveis de serem detectados por seres humanos.

– A mineração de dados se preocupa mais em identificar padrões do que sobre explicá-los. => Isso significa que muitas vezes você encontrará um padrão específico, mas não fará ideia do que ele significa.

=> Exploração automática de grandes volumes de dados

  • A mineração de dados busca descobrir padrões,** relações** e tendências ocultas em grandes conjuntos de dados.
  • Vai além da simples análise descritiva: procura insights não triviais.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Data Mining

Definições e Terminologias

A

Definições e Terminologias

– O termo Mineração de Dados remonta à década de 1980, quando seu objetivo era extrair conhecimento dos dados.
- Nesse contexto, o conhecimento é definido como padrões interessantes que são geralmente válidos, novos, úteis e compreensíveis para os seres humanos.
- Se os padrões extraídos são interessantes ou não, depende de cada aplicação específica e precisa ser verificado pelos especialistas dessas aplicações.

– O termo Análise de Dados/Informações tornou-se popular no início dos anos 2000.
- A análise de dados é definida como a aplicação de softwares para a análise de grandes conjuntos de dados para o suporte de decisões.
- A análise de dados é um campo muito interdisciplinar que adotou aspectos de muitas outras disciplinas científicas, como estatística, teoria de sinais, reconhecimento de padrões, inteligência computacional, aprendizado de máquina e pesquisa operacional.

– A Análise de Dados é uma ferramenta importante para entender tendências e projeções, permitindo identificar padrões, correlações e relacionamentos entre diferentes pontos de dados e fornecer informações sobre os dados que podem ser usados para fazer previsões e projeções.
- A análise de dados pode ser usada para analisar tendências passadas e fazer projeções sobre tendências futuras, bem como para identificar áreas de melhoria potencial e áreas de risco.

– Ela também pode ser usada para avaliar a eficácia de uma estratégia ou para identificar áreas de melhoria.
- Ao analisar tendências e projeções, as empresas podem entender melhor seus mercados e clientes e tomar melhores decisões sobre como posicionar seus produtos e serviços.
- Analytics: trata-se do processo sistemático de coletar, analisar e interpretar dados a fim de obter insights e tomar decisões.

=> Definições de Data Mining

1) Data Mining é o processo de explorar grande quantidade de dados para extração não-trivial de informação implícita desconhecida.

2) Data Mining é uso de teorias, métodos, processos e tecnologias para organizar uma grande quantidade de dados brutos para identificar padrões de comportamentos em determinados públicos.

3) Data Mining é a categoria de ferramentas de análise denominada open-end e que permite ao usuário avaliar tendências e padrões não conhecidos entre os dados.

4) Data Mining é o processo de descoberta de novas correlações, padrões e tendências entre as informações de uma empresa, por meio da análise de grandes quantidades de dados armazenados em bancos de dados usando técnicas de reconhecimento de padrões, estatísticas e matemáticas.

5) Data Mining constitui em uma técnica para a exploração e análise de dados, visando descobrir padrões e regras, a princípio ocultos, importantes à aplicação.

6) Data Mining é o conjunto de ferramentas que permitem ao usuário avaliar tendências e padrões não conhecidos entre os dados. Esses tipos de ferramentas podem utilizar técnicas avançadas de computação como redes neurais, algoritmos genéticos e lógica nebulosa (fuzzy), dentre outras.

7) Data Mining é o conjunto de ferramentas e técnicas de mineração de dados que têm por objetivo buscar a classificação e o agrupamento (clusterização) de dados, bem como identificar padrões.

8) Data Mining é o processo de explorar grandes quantidades de dados à procura de padrões consistentes com o intuito de detectar relacionamentos sistemáticos entre variáveis e novos subconjuntos de dados

9) Data Mining consiste em explorar um conjunto de dados visando a extrair ou a ajudar a evidenciar padrões, como regras de associação ou sequências temporais, para detectar relacionamentos entre estes

10) Data Mining são ferramentas que utilizam diversas técnicas de natureza estatística, como a análise de conglomerados (cluster analysis), que tem como objetivo agrupar, em diferentes conjuntos de dados, os elementos identificados como semelhantes entre si, com base nas características analisadas.

11) Data Mining é o conjunto de técnicas que, envolvendo métodos matemáticos e estatísticos, algoritmos e princípios de inteligência artificial, tem o objetivo de descobrir relacionamentos significativos entre dados armazenados em repositórios de grandes volumes e concluir sobre padrões de comportamento de clientes de uma organização.

12) Data Mining é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados.

13) Data Mining é o processo de identificar, em dados, padrões válidos, novos, potencialmente úteis e, ao final, compreensíveis.

14) Data Mining é um método computacional que permite extrair informações a partir de grande quantidade de dados.

15) Data Mining é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais.

16) Data Mining é o processo de analisar de maneira semi-automática grandes bancos de dados para encontrar padrões úteis.

– É importante saber de forma abrangente as possíveis definições de um conceito teórico importante. Dito isso, vamos tentar condensar todos esses conceitos em uma grande definição a seguir:

  • Data MiningMineração de Dados – é um conjunto de processos, métodos, teorias, ferramentas e tecnologias open-end utilizadas para explorar, organizar e analisar de forma automática ou semi-automática uma grande quantidade de dados brutos com o intuito de identificar, descobrir, extrair, classificar e agrupar informações implícitas desconhecidas, além de avaliar correlações, tendências e padrões consistentes de comportamento potencialmente úteis – como regras de associação ou sequências temporais – de forma não-trivial por meio de técnicas estatísticas e matemáticas, como redes neurais, algoritmos genéticos, inteligência artificial, lógica nebulosa, análise de conglomerados (clusters), entre outros.

– É importante mencionar também que – apesar de geralmente ser utilizada em conjunto com Data Warehousesnão é obrigatório que o seja! Você pode aplicar técnicas de mineração em diversos outros contextos (inclusive bases de dados transacionais).

– A mineração de dados necessita, por vezes, utilizar processamento paralelo para dar conta da imensa quantidade de dados a serem analisados.

– As ferramentas de mineração geralmente utilizam uma arquitetura cliente/servidor ou até uma arquitetura web.

– Por fim, a mineração de dados pode ser aplicada a uma grande variedade de contextos de tomada de decisão de negócios a fim de obter vantagens competitivas estratégicas.
- Em particular, algumas áreas de ganhos significativos devem incluir as seguintes: marketing, finanças, manufatura e saúde.

=> Observações

1) Há diferentes tipos de mineração de dados: (1) diagnóstica, utilizada para entender os dados e/ou encontrar causas de problemas; (2) preditiva, utilizada para antecipar comportamentos futuros.

2) As provas vão insistir em afirmar que a mineração de dados só pode ocorrer em bancos de dados muito grandes como Data Warehouses, mas isso é falso – apesar de comum, não é obrigatório.

3) Em geral, ferramentas de mineração de dados utilizam uma arquitetura web cliente/servidor, sendo possível realizar inclusive a mineração de dados de bases de dados não estruturadas.

4) Não é necessário ter conhecimentos de programação para realizar consultas, visto que existem ferramentas especializadas que auxiliam o usuário final de negócio.

=> CONCEITOS IMPORTANTES

Classificação de dados quanto à estrutura:

1) Dados estruturados: São aqueles que residem em campos fixos de um arquivo (Ex: tabela, planilha ou banco de dados) e que dependem da criação de um modelo de dados, isto é, uma descrição dos objetos juntamente com as suas propriedades e relações.

2) Dados Semiestruturados: São aqueles que não possuem uma estrutura completa de um modelo de dados, mas também não é totalmente desestruturado. Em geral, são utilizados marcadores (tags) para identificar certos elementos dos dados, mas a estrutura não é rígida.

3) Dados não estruturados: São aqueles que não possuem um modelo de dados, que não está organizado de uma maneira predefinida ou que não reside em locais definidos. Eles costumam ser de difícil indexação, acesso e análise (Ex: imagens, vídeos, sons, textos livres, etc).

Classificação de atributos quanto à sua dependência

1) Atributo dependente: Representa um atributo de saída que desejamos manipular em um experimento de dados (também chamado de variável alvo ou variável target)

2) Atributo independente: Representa um atributo de entrada que desejamos registrar ou medir em um experimento de dados.

  • É muito parecido com uma função matemática, por exemplo: y = ax + b. Nesse caso, x seria a variável de entrada (independente) e y seria a variável de saída (dependente).

– Classificação de atributos em relação ao seu valor:

1) Atributo numérico: Também chamado de atributo quantitativo, é aquele que pode ser medido em uma escala quantitativa, ou seja, apresenta valores numéricos que fazem sentido.

  • a) Discreto: Os valores representam um conjunto finito ou enumerável de números, e que resultam de uma contagem (Ex: número de filhos, número de bactérias por amostra, número de logins em uma página web, entre outros).
  • b) Contínuo: Os valores pertencem a um intervalo de números reais e representam uma mensuração (Ex: altura de uma pessoa, peso de uma marmita, salário de um servidor público, entre outros).

2) Atributo categórico: Também chamado de atributo qualitativo, é aquele que pode assumir valores categóricos, isto é, representam uma classificação.

  • a) Nominal: São aquelas em que não existe uma ordenação própria entre as categorias (Ex: sexo, cor dos olhos, fumante/não fumante, país de origem, profissão, religião, raça, time de futebol, entre outros).
  • b) Ordinal: São aquelas em que existe uma ordenação própria entre as categorias (Ex: Escolaridade (1º, 2º, 3º Graus), Estágio de Doença (Inicial, Intermediário, Terminal), Classe Social (Classe Baixa, Classe Média, Classe Alta), entre outros).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Data Mining

Data Mining: Principais objetivos

A

Principais objetivos

– Segundo Navathe, a Mineração de Dados costuma ser executada com alguns objetivos finais ou aplicações.

– De um modo geral, esses objetivos se encontram nas seguintes classes: Previsão, Identificação, Classificação ou Otimização. (PICO)

1) Previsão

– A mineração de dados pode mostrar como certos atributos dos dados se comportarão no futuro.

– Um de seus objetivos é prever comportamentos futuros baseado em comportamentos passados.

Exemplos:

  • Análise de transações de compras passadas para prever o que os consumidores comprarão futuramente sob certos descontos;
  • Quanto volume de vendas uma loja gerará em determinado período;
  • Se a exclusão de uma linha de produtos gerará mais lucros.

– Em tais aplicações, a lógica de negócios é usada junto com a mineração de dados.

– Em um contexto científico, certos padrões de onda sísmica podem prever um terremoto com alta probabilidade.

2) Identificação

Padrões de dados podem ser usados para identificar a existência de um item, um evento ou uma atividade.

Por exemplo:

  • Intrusos tentando quebrar um sistema podem ser identificados pelos programas por eles executados, arquivos por eles acessados ou pelo tempo de CPU por sessão aberta.
  • Em aplicações biológicas, a existência de um gene pode ser identificada por sequências específicas de nucleotídeos em uma cadeia de DNA.

– A área conhecida como autenticação é uma forma de identificação.
- Ela confirma se um usuário é realmente um usuário específico ou de uma classe autorizada, e envolve uma comparação de parâmetros, imagens ou sinais contra um banco de dados.

3) Classificação

– A mineração de dados pode particionar os dados de modo que diferentes classes ou categorias possam ser identificadas com base em combinações de parâmetros.

Por exemplo: os clientes em um supermercado podem ser categorizados em compradores que buscam desconto, compradores com pressa, compradores regulares leais, compradores ligados a marcas conhecidas e compradores eventuais.

– Essa classificação pode ser usada em diferentes análises de transações de compra de cliente como uma atividade pós-mineração.

– Às vezes, a classificação baseada em conhecimento de domínio comum é utilizada como uma entrada para decompor o problema de mineração e torná-lo mais simples
- Ex: alimentos saudáveis, alimentos de festa ou alimentos de lanche escolar são categorias distintas nos negócios do supermercado. Faz sentido analisar o relacionamento dentro e entre categorias como problemas separados.

– Essa categorização pode servir para codificar os dados corretamente antes de submetê-los a mais mineração de dados.

4) Otimização

– Um objetivo relevante da mineração de dados pode ser otimizar o uso de recursos limitados, como tempo, espaço, dinheiro ou materiais e maximizar variáveis de saída como vendas ou lucros sob determinado conjunto de restrições.

– Como tal, esse objetivo da mineração de dados é semelhante à função objetiva, usada em problemas de pesquisa operacional, que lida com otimização sob restrições.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Processo de Descoberta de Conhecimento

A

Processo de Descoberta de Conhecimento

– A Mineração de Dados faz parte de um processo muito maior de descoberta de conhecimento chamada KDD (Knowledge Discovery in Databases – Descoberta de Conhecimento em Bancos de Dados).

– O processo de descoberta de conhecimento compreende cinco fases:

  • 1) Seleção;
  • 2) Pré-processamento;
  • 3) Transformação;
  • 4) Data Mining;
  • 5) Interpretação e Avaliação.

– O processo de descoberta de conhecimento é interativo e iterativo, envolvendo várias etapas com muitas decisões tomadas pelo usuário. É necessário desenvolver uma compreensão do domínio de aplicação e os conhecimentos anteriores relevantes. Dessa forma, a primeira etapa é selecionar um conjunto de dados de diversas bases – ou se concentrar em um subconjunto de variáveis ou amostras de dados – no qual a descoberta será realizada.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly