Teste Flashcards
(32 cards)
Indica os paradigmas de representação do conhecimento da Inteligência Artificial.
- Simbólico :
- Base-se na lógica para representação do conhecimento.
- Construção de sistema de inferência
- Não simbólico:
- Baseia o funcionamento do sistema na capacidade de aprender generalizando.
- problem solving com conhecimento passado/dados de outros problemas
Indique os principais paradigmas de aprendizagem
- Aprendizagem automática (ML) = capacidade de aprender de modo autonomo e independente.
- Aprendizagem com supervisão = usa informação de resultados estabelecidos de forma a estabelecer uma relação entre valores pretendidos e valores produzidos pelo sistema.
- Aprendizagem sem supervisão = sem conhecimento dos resultados pretendidos, usa técnicas de aprendizagem que avaliam o estado interno do sistema.
- Aprendizagem por reforço = sem conhecimento dos resultados pretendidos, avalia se os resultados obtidos são bons ou maus.
Indique as principais vantagens/benificios do uso de metodologias de análise de dados.
- maior robustez
- compreensão, implementação e desenvolvimento melhorado
- replicação de processos
- planeamento e gestão do projeto
- maturidade
- adoção de melhores práticas
Indique as principais metodologias de análise de dados e as suas respectivas etapas.
CRISP-DM (Cross Industry Standard Process for Data Mining)
* Estudo do negócio
* Estudo dos dados
* Preparação dos dados
* Modelação
* Avaliação
* Desenvolvimento
SEMMA (Sample, Explore, Modify, Model, Assess)
PMML (Predictive Model Markup Language) = linguagem desenvolvida para descrever modelos em XML
Indique as tarefas na preparação de dados
- Discretização/Enumeração
- Limpeza
- Transformação
- Redução de dados
Descreva o principal método relativo à Discretização/Enumeração, uma das etapas na preparação dos dados.
A discretização/enumeração consiste na redução do número de valores de um atributo contínuo em intervalos.
Isto pode ser feito através de:
- Binning
- Equal-width Binning
- divide gama de valores em N intervalos de igual largura
- Largura = (limite superior - limite inferior) / N
- Pros & Cons
- Simples e fácil de implementar
- abstrações de dados razoáveis
- sem supervisão
- quem determina N?
- sensível a valores de fronteira
* Equal-height Binning * divide a gama de valores em N intevalos, cada um contendo, aproximadamente, a mesma quantidade de valores. * Pros & Cons * Igual largura normalmete preferida dada a possibilidade de "amontoar" dados * Na prática, é são usados intervalos de "quase" igual altura para garantir intervalos mais intuitivos. * Menos sensível a valores de fronteira * Criação de intervalos para valores especiais ("0")
- Equal-width Binning
Descreva os métodos alternativos a Binning relativos à Discretização/Enumeração de dados, uma das etapas da preparação de dados.
Métodos alternativos na discretização:
* 1R (baseado em Binning)
* Entropia
* Impurezas
Indique as principais decisões perante a ausência de dados, destacando os cenários mais viáveis para cada cenário.
Evitar adicionar distorção aos dados
- Ignorar os registos onde faltam dados - má prática se os registos em falta forem elevados/registos em falta contêm informação importante
- Preencher manualmente os registos (trabalho/dificil?)
- Preencher com mesmo valor (pode criar tendências artificiais nos dados)
- Valor médio do atributos (pouco impacto se desvio padrão for baixo)
- Valor mais frequente
Descreva os principais métodos relativo à Transformação, uma das etapas na preparação dos dados.
- Alisamento/Smoothing = remoção do lixo/ruído dos dados (binning, regressão, clustering)
- Agregação = pressupor que os resultados sumariam os dados iniciais (resumo de vendas trimestrais, …)
- Generalização = hierarquização de conceitos (distrito - cidade - rua)
- Formação de novos atributos (preço após impostos)
- Uniformização = evitar gama alargada de valores, resolver tendências dos algoritmos para com valores anormais)
- Normalization [0:1]
- Standarization/Z-score (Padronização)
- Deteção de valores atípicos = visualização por Box-Plot, Z-Score (desvio padrão)
Quais as principais diferenças entre Normalization e Standarization (Padronização), conceitos à preparação de dados mais precisamente na uniformização (transformação).
- Normalização
- valor Min & Max dos atributos são usados na escala
- usado quando existem escalas diferentes
- [0, 1] ou [-1,1]
- Distriubuição concreta?
- Afetada por valores atípicos
- Standarization
- valor médio e desvio padrão são usados na escala
- não é enquadrado num intervalo específico
- Distribuição Normal/Gaussiana
- Pouco afetada por valores atípicos
Descreva o objetivo da Redução de dados, uma das etapas na preparação dos dados e indique as principais estratégias.
A Redução de dados pretende obter uma representação reduzida do volume de dados em conjunto com a produção dos mesmos (quase) resultados analíticos.
As principais estratégias baseam-se em:
- Construção de cubos de dados (operações de agregação de forma a construir)
- Redução de dimensões (remoção de atributos irrelevantes, redundantes ou pouco interessantes a analisar)
- PCA (Principle Component Analysis)
- considera todos os atributos
- combiná-los de uma forma inteligente
- produz novos fatores que são correlacionados entre si e ordenados por ordem de importância.
- Normalmente usada em paradigma de aprendizagem não supervisionado
- PCA (Principle Component Analysis)
- Compressão de dados
- Discretização e generalização dos conceitos
Quais são os principais tópicos que a preparação de dados pretende abordar?
Conclusões
- Adequar os dados às técnicas de análise
- Adaptar os dados às ferramentas
- Selecionar os dados que representam conhecimento
- Sintetizar dados que tornem a realidade mais inteligível
- “Preparação do preparador”
Indique as técnicas de aprendizagem relativas ao paradigma de aprendizagem com supervisão.
- Classificação
- Regressão
Explique o processo de construção de uma árvore de decisão e consequente modelo de decisão baseado no paradigma de aprendizagem com supervisão.
Modelos de decisão e etapas
Existem 2 tipos de paradigmas de criação de modelos de decisão (Top-down e Bottom-up). As árvores de decisão seguem o paradigma Bottom-up:
- informação sobre cada item deve estar numa colexão fixa e finita de atributos
- níveis de decisão conhecidos a priori ? construção do modelo por aprendizagem supervisionado : não supervisionado
- Niveis de decisão
- Contínuo = folhas de decisão identificam intervalos/conjuntos de valores
- Discreto = folhas de decisão são categorias ou classes.
A construção de uma árvore de decisão baseia-se nas etapas:
- Observação
- Generalização por indução
- Criação do modelo
- Apresentação do problema
- Previsão
Indique o significado de entropia no contexto da análise de dados e explique a sua relação com um problema de árvores de decisão.
A entropia indentifica o grau de desorganização dos dados
Na construção de uma árvore de decisão, existe a questão de qual o melhor atributo para ser a raiz da árvore de decisão.
Através da entropia (Entropia(S) = -p(+)log2(p(+)) - p(-)log2(p(-)) com p(+) pertence a [0,1] e p(-) equivalente a (1-p(+)) pertence a [0,1])
determinar o atributo com maior ganho de informação.
O atributo com maior ganho será a raiz da árvore.
Refira o funcinamento interno da técnica de aprendizagem de Classificação e as métricas de qualidade usadas para este tipo de técnicas.
Classificação baseia-se num conjunto de registos. Cada registo é caracterizado por um tuplo (x,y) em que x representa o conjunto de atributos e y a classe/categoria atribuida.
O objectivo consiste em apresentar um modelo que mapeia cada conjunto de atributos x em uma das classes predefinidas y.
Métricas de avaliação:
- Matriz de confusão
- Accuracy = (TruePositive + TrueNegative) / Total
- Precision/Sensitivity (exatidão, proporção de itens relevantes em todos os itens) = TruePositivo/(TruePositive + FalsePositive)
- Recall/Specificity (completude, proporção de itens relevantes) = TruePositive / (TruePositive + FalseNegative)
- ROC curve (Receivet Operating Characteristics)
- desempenho do modelo em diferentes limites de classificação
- reduz o threshold
Refira o funcinamento interno da técnica de aprendizagem de Regressão e as métricas de qualidade usadas para este tipo de técnicas e o seu respetivo significado.
Regressão = como variable(s) independentes conseguem prever uma variavel dependente.
- Métricas de qualidade
- Erro Médio Absoluto (MAE)
- MAE = 1/n sum(n, j = 1) | yj - ^yj | com n a ser a quantidade de observações
- Erro Médio Quadrado (MSE)
- MSE = 1/n sum(n,j=1) (yj - ^yj)^2
- Raiz Quadrada do Erro Médio Quadrado (RMSE)
- RMSE = 1/n sqrt(MSE)
- Significado:
- todas as expressões expressam o erro médio de previsão do modelo (mais baixo = melhor)
- medir precisão de valores continuos
- [0, infinite[
- MAE e RMSE - expressam error de previsão na mesma unidade da variável de interesse
- MSE e RMSE ao quadrado = peso relativamente alto para erros grandes.
- MSE e RMSE = uteis quando grandes erros são indesejáveis.
- Erro Médio Absoluto (MAE)
Descreva os mecanismos de avaliação de modelos.
- Hold-out Validation = partição do dataset em secção de treino e teste (ex: 75%, 25%)
- Cross Validation = dividir o conjunto de dados em k folds
- número ideal de folds k?
- k depende do valor de N (tamanho do dataset)
- dataset pequeno? k ≈ N (all data) - maximizar a quantidade de dados para treino.
- dataset grande? k pode ser pequeno
- Reduz
- Overfitting = modelo demonstra bons resultados para dados de treino mas não para novos dados
- Underfitting = modelo não consegue estabelecer um significado na relação entre dados de input e de output.
- Modelos de underfit demonstram resultados inadequados para ambos dados de treino e teste. Modelos overfit demonstram grande variancia. Datasets com muitas variáveis independentes são propicios a overfitting.
- k depende do valor de N (tamanho do dataset)
- número ideal de folds k?
Descreva o processo de seleção de atributos (Feature Selection), uma das etapas de preparação de dados.
A seleção de atributos deve se basear em:
- Senso comum
- Cuidado ao adicionar novo conteúdo
- Restrição dos atributos (uso de métricas como AIC, BIC, R ao quadrado ajustado)
- Pros
- treino mais rápido
- reduz complexidade
- melhor accuracy
- reduz overfitting
- Métodos de seleção
- métodos de filtragem (Person’s correlation, Anova, …)
- métodos “wrapper”
- Foward Selection
- Backward Elimination
Descreva os processos de one hot enconding e label enconding.
one hot enconding redefine o dataset de forma a adicionar novas colunas respetivas a cada valor categorico. Após isso, usa números binários de forma a preencher as respetivas colunas (preenche com 0 em todas a coluna à excessão da linha correspondente à label (1)). label enconding uma nova coluna com um valor númerico associado a cada categoria.
Exemplo: coluna com cidades.
- Pros: torna compativel o dataset para o uso de alguns ML models
- Cons: aumenta a complexidade do dataset e a possibilidade de overfitting
Indique o que entende por aprendizagem não supervisionada e descreva a principal técnica.
Aprendizagem não supervisinada = dado que os resultados sobre os diferentes casos não são conhecidos, existe a necessiade da escolha de técnicas que avaliem o funcionamento técnico do sistema.
Técnicas:
- Segmentação/Clustering = processo no qual se particiona um conjunto de dados em segmentos/clusters de menor dimensão; estes conjuntos são agrupados por dados semelhantes.
- medidas de similaridade:
- distância Euclidiana (Manhattan (atributos contínuos)
- coeficiente de Jacquard (atributos discretos/binários)
- use cases
- suspeita de existência de agrupamentos “naturais”
- existência de muitos padrões diferentes nos dados, dificil de identificar um único padrão.
- criação de seg. semelhantes reduz a complexidade do sistema
- medidas de similaridade:
Indique como lidar com os diferentes tipos de dados para análise ao usar Segmentação.
* Atributos contínuos, binários, nominais, ordinarios, mistos
- Atríbutos contínuos
- normalizar os dados (evitar que os dados dependem das unidades de medida)
- por norma, usadas medidas de distância para calcular a proximidade (similaridade entre objetos):
- distância Euclidiana (distância geométrica no espaço)
- (formula da distância com 4 coordenadas)
- distância de Manhattan (distância pela difereça de pontos)
- (soma das do modulo da diferenças das coordenadas)
- distância Minkowski (peso progressivo em função da distância de pontos)
- distância Euclidiana (distância geométrica no espaço)
- Atríbutos binários
- classificados (simétricos e assimétricos)
- tabela de contingência
- Atríbutos nominais (generalização de atributos binários , dados podem assumir mais de 2 valores)
- métodos = one hot enconding, label enconding
- Atributos ordinais
- ordem é relevante
- podem ser tratados como atributos contínuos (ordenação de valores = classificação, similaridades)
- Atributos mistos
- dados com diversos tipos de atributos
- tipicamente, usar função “pesada” para medir efeitos de cada atributo
Indique os principais métodos de segmentação.
- Particionamento
- Algoritmos (converter dados ‘D’ de ‘n’ objetos em conjuntos de ‘k’ segmentos.
- Métodos heurísticos
- K-means
- K-medoids
- Hierarquização
- Outros algoritmos
- Balanced Iterative Reducing and Clustering using Herarchies (BIRCH)
- Clustering using representatives (CURe)
- Density Based Spatial Clustering of Application with Noise (DBSCAN)
- Métodos heurísticos
- Algoritmos (converter dados ‘D’ de ‘n’ objetos em conjuntos de ‘k’ segmentos.
Descreva o funcionamento e os pros & cons de utilização do método heurístico K-means, um dos algoritmos de particionamento relativos a segmentação.
Funcionamento do k-means:
- Dividir objetos em ‘k’ subconjuntos não vazios
- Calcular o centro de cada segmento (centroid)
- Atribuir cada objeto ao centroid mais próximo
- Sem mais possibilidades? colocar o centroid no centro do segmento anterior
Pros:
- Relativamente eficiente
- ótimos locais
Cons:
- aplicar só quando é possível calcular a média (centroid)
- identificar número de segmentos a priori
- ruído nos dados / não identifica segmentos côncavos