Químio-Informática - Machine Learning. QSAR e QSPR. Árvores de Decisão Flashcards

Question

Explicita um exemplo dado de aplicação de árvores de decisão.

Answer 1

Neste caso, fez-se a previsão da mutagenecidade, a partir de 381 descritores moleculares. Aqui o objetivo foi classificar as moléculas entre mutagénicas e não mutagénicas, partindo de um conjunto de dados, ou seja, 32 estruturas, a partir de 381 descritores. Apesar da enorme quantidade de descritores, a árvore recorreu a apenas 2 descritores, resultando em 3 regras (2 delas com o mesmo descritor GS). Este método tem embebido nele próprio uma pré-seleção de descritores quando vai inferir as regras, recorrendo aos descritores mais convenientes. Fez-se também uma cross-validation extrema (“leave-one-out”) onde o número de experiências que fazemos é igual ao número de objetos que escolhemos no conjunto. Esta técnica é usual para poucos objetos (32), obtendo 3 classificações erradas. (Sendo Gs: G total symmetry index/weighted by atomic electrotopological states (3D-WHIM descriptor) R5m+: R maximal autocorrelation of lag 5/weighted by atomic masses (3D-GETAWAY descriptor))

Answer 2

Esta árvore funciona de uma maneira intuitiva e transparente e normalmente transmitem logo as regras: ◦ Aqui começa por avaliar o descritor GS (3D relacionado com a simetria) e avalia, de acordo com o descritor, se é maior ou menor que 0.3325. → Se for ≥ vai para o ramo da direita, que por sua vez é terminal e é logo classificada como mutagénico → Se for < vai para o ramo da esquerda e é aplicada uma nova regra, neste caso uma nova regra baseada com o mesmo descritor, com um outro valor ◦ Aplica-se uma nova regra, com o valor 0.2045 → Se for ≥ segue para um nó terminal e é classificada como não mutagénico → Se for < é-lhe aplicada uma nova regra ◦ Aplica-se uma nova regra, desta vez com outro descritor R5m+ terminal Pela análise da mesma é possível concluir: ◦ Quais os descritores escolhidos, e então, quais os mais importantes, assim como funcionam no modelo. No caso do exemplo → Um GS muito alto relaciona-se com mutagénico → Um GS e R5m+ muito baixos também se relacionam com mutagénico. ◦ Que regras utiliza para o modelo determinar se a molécula é ou não mutagénica;

Answer 3

A árvore é construída recursivamente, cada regra dividindo o conjunto de dados dum nó em dois nós descendentes – objetos com valor abaixo dum determinado nível caem num dos nós descendentes e objetos com valores acima caem no outro nó descendente. Aos nós terminais ficam associadas previsões sobre a propriedade em estudo, que são obtidas pela maioria dos objetos do conjunto de treino que atingem esse nó (no caso de árvore de classificação) ou pela média da propriedade a modelar dos objetos do conjunto de treino que caem nesse nó (no caso de árvore de regressão).

Answer 4

A árvore cresce enquanto é possível diminuir a função de impureza mais do que um valor previamente definido. Ou então a árvore cresce até existirem apenas nós puros, ou com todos os objetos idênticos, sendo seguidamente podada de baixo para cima retirando algumas divisões com base numa medida de custo-complexidade. Finalmente, entre várias árvores possíveis, é escolhida a árvore que origina o mais baixo erro em validação cruzada.

Answer 5

Em cada repetição, construímos uma árvore de decisão utilizando todas as amostras exceto uma, e depois testamos a árvore justamente na amostra que ficou de fora. Avaliamos se a previsão feita pela árvore para aquele exemplo foi correta ou não. Depois de repetir esse processo para todas as amostras, calculamos métricas como a acurácia média ou o erro quadrático médio para medir o desempenho geral do modelo. O principal motivo para usar Leave-One-Out em árvores de decisão é avaliar cuidadosamente a capacidade de generalização do modelo. Essa técnica é especialmente útil quando se dispõe de poucos dados, pois permite aproveitar quase todo o conjunto para treinar o modelo em cada iteração. Além disso, o LOO ajuda a identificar se a árvore está a "decorar" os dados (overfitting) ou se realmente aprendeu padrões gerais que podem ser aplicados a novos casos.

Answer 6

As árvores de decisão podem ser usadas para duas grandes tarefas: Classificação, onde o objetivo é prever categorias (por exemplo, "composto tóxico" vs "composto não tóxico"); Regressão, onde o objetivo é prever valores contínuos (como prever a constante de velocidade de uma reação). Exemplo rápido para fixar: Se você usa uma árvore de decisão para prever se uma molécula é ativa ou inativa → é uma árvore de classificação. Se você usa uma árvore de decisão para prever a solubilidade de uma molécula em números → é uma árvore de regressão.

Answer 7

Nas Árvores de classificação, ao termos um conjunto de objetos aleatórios, é importante assumir critérios para decidir quando devemos parar o treino e para avaliar quão boa é a técnica. Logo, o nosso algoritmo vai: ◦ Encontrar a melhor regra, isto é, encontrar uma primeira regra para separar em duas classes, sendo importante ter um bom critério de seleção, de acordo com os descritores disponíveis. ◦ Para tal, analisa, para todos os descritores, todos os valores possíveis de separação. Depois desta avaliação para todos os descritores e todos os valores possíveis, verifica qual destas possibilidades teve a melhor separação. Para que isto seja possível, deve-se definir, uma maneira quantitativa de avaliar se a separação foi boa ou má.

Answer 8

Um parâmetro usado é a entropia.

Answer 9

Este vai avaliar quão misturados estão os objetos num nó, ou seja, quão misturadas estão as classes num determinado conjunto de objetos. Posteriormente, avalia-se se esse grau de mistura diminuiu ou não, pela aplicação da regra, assim como perceber o quão diminuiu esse grau de mistura. A entropia está associada: ◦ À desarrumação, ou seja, quanto mais misturadas estiverem as classes, maior é a desarrumação. ◦ Ao conteúdo de informação, apresentando uma maior entropia quando existe menos informação ◦ À mistura, onde se os objetos não estiverem misturados, ou seja, se todos os objetos de um subconjunto forem da mesma classe, quando vamos àquele subconjunto, já sabemos que são se uma determinada classe, tendo menos entropia, neste caso. Objetivo: diminuir a entropia + arrumação + informação - mistura

Answer 10

ver slides. t: nó j: corresponde à classe; p(j|t): proporção de objetos da classe j no nó t.

Answer 11

Esta define a entropia de um conjunto de objetos, que corresponde ao somatório em todas as classes. Por exemplo, se tivermos duas classes, A e B, faz-se o somatório para a classe A e, depois, para a classe B. Se tivermos, num nó 30% de objetos da classe A e 70% de objetos da classe B: ◦ Para A, p(A|t)=0,3 ◦ Para B, p(B|t)=0,7 𝑖(𝑡)=−(0,3.log2(0,3)+0,7.log2(0,7))=0,88

Answer 12

avalia-se a informação ganha na divisão em tL e tR. Para avaliarmos se uma determinada regra ajuda ou não, mede-se a entropia do nó i(t), seguida da entropia dos dois ramos, que resultam da aplicação da regra e faz-se a diferença entre as entropias: ver slide pra fórmula pL: proporção de casos em t a irem para tL (sep esquerda pR: proporção a ir para tR. (sep direita) t: nó s: divisão Esta equação é dada pela diferença de entropia antes de aplicar a regra/divisão i(t), depois realizam-se os cálculos da medida de entropia para o nó da esquerda pLi(tL) e para o nó da direita pRi(tR). Cada uma delas é multiplicada pela proporção de objetos que foi para o nó da esquerda e da direita (pL e pR, respetivamente).

Answer 13

Aqui, em vez de avaliarmos se uma regra divide bem os objetos (classe X para um lado e classe Y para outro), queremos avaliar se está a pôr num lado os objetos que tenham esse valor da propriedade a prever, parecido. Ou seja, se separa valores parecidos entre si, de uma mesma propriedade para um lado, e outros valores, também parecidos entre si, para outro. Associa-se a uma fórmula matemática que é baseada na variância. critério é aplicar a variância do nó antes de impor a regra (S) e obter a variância dos nós que resultam dessa mesma regra (St e Sf). No fim, calcula-se a diferença e avaliar a regra que permite uma maior diminuição da variância

Answer 14

Cada ramificação da árvore termina num nó terminal. Quando se chega a esse nó terminal, a previsão é feita com base no valor/classe associada ao nó terminal, onde, no caso da: ◦ Árvore de Classificação, prevê-se a partir da classe maioritária do conjunto de treino que caiu nesse nó terminal. Vê-se quais foram os objetos do conjunto de treino que caíram nesse nó terminal e a que classe pertenciam. A classe maioritária desses objetos é a que fica associada a esse nó terminal. No modo de previsão, uma molécula que fique no nó terminal, classifica-se com essa classe maioritária associada. ◦ Árvore de Regressão: prevê-se, para o conjunto de treino, qual a média do valor associado à propriedade de todos os objetos que caíram no nó terminal, e essa mesma propriedade média fica associada ao nó terminal. No modo de previsão, quando tenho uma molécula no nó terminal, a previsão da molécula é o valor numérico associado a esse nó terminal.

Answer 15

A previsão é feita com base no valor/classe associada ao nó terminal. ◦ Uma possível regra para parar de cortar: Ao princípio, estabelecer um limite para a variação de entropia (ganho de informação/redução de variância) e, quando, num determinado nó, já não for possível encontrar uma regra que execute nenhuma divisão acima do limite, declara-se o nó terminal ◦ Uma estratégia melhor: Crescer uma árvore muito grande até que todos os nós terminais sejam puros, pequenos ou contenham apenas vetores idênticos. Assim, recorre-se a uma cross validation, para comparar árvores de tamanhos diferentes e decidir qual a melhor. → Constrói-se uma árvore o maior possível, até que tenha objetos só da mesma classe, ou objetos com descritores completamente iguais; → experimentamos as subárvores que resultam de retirar uma das regras (ramos), fundindo os dois ramos que esta regra estava a produzir. Estas subárvores têm menos regras e o algoritmo avalia cada uma destas com o cross validation, ou seja, divide-se o conjunto de treino em n partes e fazemos n experiências, em que treinamos n-1 partes, obtendo as previsões para a parte que ficou de fora. A subárvore que obtiver o melhor resultado para a classificação/previsão fica.

Answer 16

ver página 18 resumos.

Answer 17

◦ Contar a quantidade de objetos do conjunto teste que foi bem classificada e a mal classificada. Este parâmetro observa-se na coluna da “Precisão”, onde temos que 72% e 73% foram bem classificados. No entanto, a percentagem da precisão, só por si, pode ser enganadora, se as duas classes não forem bem equilibradas, ou seja, não estiverem na mesma proporção de um determinado conjunto.

Answer 18

a sensibilidade (total de inibidores que encontrou a dividir pelos inibidores existentes) e especificidade (total de não inibidores que encontrou a dividir pelos não inibidores existentes) que avaliam a capacidade de acertar os não inibidores e os inibidores.

Answer 19

◦ Universalmente aplicável a problemas de classificação e regressão sem suposições sobre a estrutura de dados; ◦ O resultado mostra-se em forma da imagem da estrutura em árvore, que fornece informações valiosas sobre quais variáveis são importantes e como são importantes; ◦ Os nós terminais deram um agrupamento natural (clustering dos dados) em grupos homogéneos, que correspondem a uma mesma classe e que têm características comuns em termos dos descritores revelados pela árvore; ◦ Lida com dados ausentes e variáveis categóricas com eficiência; ◦ Funciona com variáveis numéricas (ficheiro CDK), assim como, com variáveis categóricas, ou seja, trabalhar com uma variável que não seja um número (exemplo: um esqueleto de um aminoácido, um açúcar e um lípido, como variáveis) ◦ Pode lidar com grandes conjuntos de dados, onde os requisitos computacionais estão na ordem de MNlogM , onde N é o número de casos e M é o número de variáveis.

Answer 20

◦ Precisão: que se traduz na qualidade das previsões. Os métodos atuais, como SVMs, têm em média 30% menos taxas de erro que o CART; ◦ Instabilidade: se se alterar um pouco os dados, obtém-se uma árvore completamente diferente da árvore. Portanto, a interpretação do que se passa é construída sobre “areias movediças”.