Químio-Informática - Machine Learning. QSAR e QSPR. Árvores de Decisão Flashcards

1
Q

Um problema que tem sido a ser solucionado ao longo dos anos é a capacidade…

A

…de que um computador “aprenda” química (inteligência artificial), ou seja, a partir de uma dada estrutura, conseguir prever propriedades como toxicidade, ou mesmo espetros, até mesmo prever como será o tipo de reação, por estes métodos de machine learning. Todas estas propriedades se encontram codificadas na estrutura molecular, ou seja, que átomos estão ligados e que tipo de elementos se encontram na mesma.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

De que maneira um computador “aprende”?

A

De forma empírica, a partir de conjuntos de dados experimentais, é possível aplicar técnicas estatísticas (como regressões lineares) ou métodos de aprendizagem automática (como redes neuronais, árvores de decisão ou support vector machines) para estabelecer relações entre estrutura química e propriedade molecular (QSPR), ou entre estrutura química e atividade biológica (QSAR). Para tal, as estruturas químicas são representadas por um número fixo de parâmetros, denominados descritores moleculares.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

As técnicas de Machine Learning são usadas para estabelecer relações de estrutura-propriedade, recorrendo a:

A

◦ QSPR - Relações Quantitativas Estrutura- Propriedade, tratando-se de um método mais geral, servindo para propriedades, como viscosidades.
◦ QSAR - Relações Estrutura-Atividade Quantitativas, encontrando-se especificado para propriedades biológicas (inibição, potência)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Os passos típicos dum estudo de QSPR ou QSAR são:

A

a) Definir os conjuntos de dados;
b) Selecionar os descritores moleculares;
c) Treinar o modelo;
d) Avaliar o modelo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

A partir dos dados disponíveis devem selecionar-se 3 conjuntos disjuntos:

A

◦ conjunto de treino para construir o modelo;
◦ conjunto de validação para otimizar parâmetros do treino;
◦ conjunto de previsão para testar o modelo final com objetos ainda não vistos pelo modelo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

É necessário garantir que não existem compostos simultaneamente no conjunto de treino e de previsão (relembrem a utilização de SMILES ou InChI). A divisão do conjunto inicial pode ser feita:

A

◦ De forma aleatória;
◦ Basear-se na distribuição da propriedade a prever;
◦ Basear-se na diversidade molecular do conjunto de dados, que permite selecionar um conjunto de treino que cubra o melhor possível o universo das estruturas disponíveis (há a possibilidade de definir semelhanças entre moléculas a partir de descritores moleculares, ou de hashed fingerprints, por exemplo).
Por exemplo, se sabemos que o ponto de fusão está relacionado com o tamanho e com a polaridade dos compostos, para modelar o ponto de fusão devemos incluir descritores que codifiquem o tamanho e a polaridade.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Outros critérios para selecionar descritores são a:

A

◦ Correlação entre descritores;
◦ Variância, ou seja, dois descritores muito correlacionados são redundantes enquanto que descritores com baixa variância são pobres em informação.
Por vezes também são usadas técnicas de análise multivariada como Análise de Componentes Principais (PCA) para transformar o conjunto de descritores num conjunto mais pequeno com maior densidade de informação.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Como é que as regressões linerares se relacionam com técnicas de machine learning?

A

As regressões lineares podem ser explicadas por um exemplo bastante simples de regressão linear é a previsão de concentrações a partir de absorvâncias pela lei de Lambert-Beer. De uma forma geral, a partir de um conjunto de pontos, para encontrar a reta, o algoritmo otimiza o declive (a) e a ordenada na origem (b), tal que a reta passe o mais possível pelos pontos todos, minimizando os quadrados das distâncias de cada ponto à reta.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Dá um exemplo bom para usar regressões linerares em machine learning.

A

Se tivermos um único descritor, podemos usar uma destas regressões lineares para, por exemplo, modular o ponto de ebulição a partir do peso molecular. Constrói-se uma regressão, onde teríamos as seguintes variáveis:
◦ Variável x (massa molecular);
◦ Variável y (ponto de ebulição).
Logo, o algoritmo iria encontrar a melhor equação que descrevesse melhor a relação linear entre x e y.
y = ax + b
Sendo o objetivo encontrar os melhores valores possíveis de a e b tal que essa equação permita prever y a partir de x. Logo, se tivermos um composto novo podemos prever o seu ponto de ebulição através da adição de variáveis x (valor de peso molecular).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Uma regressão simplesmente linear é bastante simples. Uma primeira ferramenta para construir modelos QSAR/QSPR é a…

A

regressão multilinear. Estas exprimem a propriedade a prever (y) como uma combinação linear de descritores moleculares x1, x2, … xn, ou seja:
◦ Variáveis x: x1, x2, x3, x4, …, xn (descritores)
◦ Variável y (propriedade)
Sendo o objetivo encontrar a melhor equação que descreva melhor a relação linear entre x1,.., xn e y:
y = a1 x1 + a2 x2 + a3 x3 +…+ an xn + b

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Como funciona a regressão multilinear?

A

No contexto de QSAR/QSPR:

Você coleta uma série de moléculas;

Calcula descritores para cada uma;

Usa esses dados para “treinar” o modelo, ajustando os b’s para minimizar os erros (normalmente usando método dos mínimos quadrados);

Depois, com novos compostos, você pode prever propriedades usando essa equação.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

O algoritmo dos mínimos quadrados minimiza a soma das distâncias ao quadrado dos pontos até à linha num espaço n dimensional. O que entendes por isto?

A

Quando você ouve que o método dos mínimos quadrados minimiza a soma das distâncias ao quadrado dos pontos até à linha (ou hiperplano, em várias dimensões), isso quer dizer:

Você tem um conjunto de dados: cada ponto é (X₁, X₂, …, Xₙ, Y).

O seu modelo tenta prever o valor de Y a partir dos X.

Para cada ponto real, existe uma diferença entre o valor real de Y e o valor previsto pelo modelo: essa diferença é chamada de resíduo.

O que o algoritmo faz é calcular o quadrado desse resíduo para cada ponto (assim, valores negativos não se anulam).

Depois soma todos esses quadrados.

E então ajusta os coeficientes b0, b1, …, bn para que essa soma seja o menor possível.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Por vezes, será necessário restringir determinado tipo de descritores caso não seja relevante para a propriedade e características que temos de resolver. Como por exemplo…

A

Por exemplo, o ponto de fusão está relacionado com o tamanho e polaridade dos compostos, logo, se quisermos modelar o ponto de fusão devemos usar descritores moleculares que codifiquem tamanho e polaridade.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Exemplo de aplicação com regressões multilineares:

A

Prever a constante de velocidade de reação de um composto como radical OH, que acontece na atmosfera e serve para prever o destino de compostos na mesma. Deste modo, selecionaram-se descritores e montou-se uma descrição multilinear e selecionaram-se os descritores com a seguinte equação:
Onde:
HOMO: Energia da orbital molecular ocupada de maior energia
nX: Número de átomos de halogéneos
ClC0: índice de conteúdo de informações complementares. É topológico que codifica o conteúdo de informação dentro da sup. molecular
nCaH: Número de C aromáticos não substituídos (sp2)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quando analisamos a representação gráfica do training set como devemos avaliá-la? É a melhor maneira de avaliar o modelo?

A

Ao analisar o training set, observamos alguma dispersão à volta da linha azul. Concluímos que esta característica é razoável e que a equação parece ser capaz de produzir o conjunto de treino, com base em 4 descritores. No entanto, o gráfico em si não é uma boa forma de avaliar se o modelo é bom ou não, porque fazer previsões com base nestas equações experimentais pode não servir para serem aplicados em situações novas. Só porque o modelo ficou bom para o conjunto de treino não significa que ele é confiável para fazer previsões de novos compostos.
O modelo pode ter simplesmente “decorado” (overfitting) os dados de treino — ou seja, ajustado demais aos exemplos conhecidos, sem entender o padrão real. Logo temos de ver de que maneira é que os novos são capazes de apresentar estas previsões.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quando analisamos a representação gráfica do test set como devemos avaliá-la? É a melhor maneira de avaliar o modelo?

A

Passando para o test set, na linha vermelha temos outros compostos e vemos que o modelo continua bom, tendo em conta que são compostos novos. Podemos dizer que, mais uma vez, não é possível concluir sobre a dispersão apresentada, porque teríamos de comparar com outros compostos. Como não temos casos extremos, globalmente, é capaz de distinguir bem compostos com constantes de velocidade nesta gama. Outra conclusão que tiramos é que, se tivermos compostos com k muito parecidos, já seria difícil usar o modelo, visto que há muitos casos com valores experimentais próximos, que apresentam valores previstos quase sobrepostos, e noutros casos muito longe uns dos outros. Logo, depende do contexto das aplicações.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Que softwares usamos para fazer regressões multilineares?

A

◦ Excel;
◦ Serviço web wessa.net;
◦ Weka

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

As regressões multilineares apresentam a vantagem de ser um modelo completamente transparente. Ou seja, eles:

A

◦ Mostram os descritores e as funções usadas;
◦ Mostram o contributo de determinado descritor para sinal positivo ou negativo;
◦ Existem parâmetros que dão a descrição do descritor, ou seja, sabemos logo a profundidade dos mesmos.

19
Q

Exemplos cotidianos de árvores de decisão podem ser?

A

Já se conhecem exemplos de árvores de decisão, para classificação, como as chaves dicotómicas em Biologia, para classificar organismos a partir das suas características, ou num call center, em que escolhemos um número para nos reencaminhar a chamada a um especialista do nosso problema.

20
Q

Define o conceito de árvores de decisão.

A

Uma árvore de decisão consiste numa hierarquia de regras baseadas em valores dos descritores para os objetos do conjunto de treino. Cada regra consiste num teste lógico normalmente definido com base num descritor. Estas são outro algoritmo de aprendizagem automática e podem dividir-se em:
◦ Árvores de classificação, para problemas de classificação;
◦ Árvores de regressão, para problemas de regressão.
São intuitivas, tratando-se de conjuntos de regras hierárquicas onde, a partir dos descritores, vão classificar os objetos.

21
Q

No âmbito desta cadeira, o objetivo de árvores de decisão é…

A

…inferir regras que permitam classificar estrutura moleculares, de acordo com os descritores definidos.

22
Q

Temos então um conjunto de treino em árvores de decisão, onde os objetos são:

A

◦ Descritores: x1, x2, x3, x4, …, xn
◦ Classes: A, B, C, … (outpus)

23
Q

As árvores de decisão procuram regras…

A

…para classificar objetos (moléculas), com base nos descritores x1 a xn, sendo estas, inferidas a partir dos objetos do conjunto de treino. Após o treino, as árvores podem ser aplicadas a novos objetos para a sua classificação.

24
Q

Descreve características das árvores de decisão. Podes até dizer um problemas delas.

A

◦ As árvores são formadas por um conjunto de regras baseadas em valores de atributos (variáveis) no conjunto de dados de treino.
◦ Trata-se de uma técnica não paramétrica que produz árvores de classificação ou regressão, dependendo se a variável dependente é categórica ou numérica, respetivamente. O objetivo é ter um output com um número real.
◦ Os problemas consistem em atribuir a classificação a um objeto.

25
Explicita um exemplo dado de aplicação de árvores de decisão.
Neste caso, fez-se a previsão da mutagenecidade, a partir de 381 descritores moleculares. Aqui o objetivo foi classificar as moléculas entre mutagénicas e não mutagénicas, partindo de um conjunto de dados, ou seja, 32 estruturas, a partir de 381 descritores. Apesar da enorme quantidade de descritores, a árvore recorreu a apenas 2 descritores, resultando em 3 regras (2 delas com o mesmo descritor GS). Este método tem embebido nele próprio uma pré-seleção de descritores quando vai inferir as regras, recorrendo aos descritores mais convenientes. Fez-se também uma cross-validation extrema (“leave-one-out”) onde o número de experiências que fazemos é igual ao número de objetos que escolhemos no conjunto. Esta técnica é usual para poucos objetos (32), obtendo 3 classificações erradas. (Sendo Gs: G total symmetry index/weighted by atomic electrotopological states (3D-WHIM descriptor) R5m+: R maximal autocorrelation of lag 5/weighted by atomic masses (3D-GETAWAY descriptor))
26
Como funciona a árvore de decisão do exemplo que deste anteriormente? O que se pode concluir nela?
Esta árvore funciona de uma maneira intuitiva e transparente e normalmente transmitem logo as regras: ◦ Aqui começa por avaliar o descritor GS (3D relacionado com a simetria) e avalia, de acordo com o descritor, se é maior ou menor que 0.3325. → Se for ≥ vai para o ramo da direita, que por sua vez é terminal e é logo classificada como mutagénico → Se for < vai para o ramo da esquerda e é aplicada uma nova regra, neste caso uma nova regra baseada com o mesmo descritor, com um outro valor ◦ Aplica-se uma nova regra, com o valor 0.2045 → Se for ≥ segue para um nó terminal e é classificada como não mutagénico → Se for < é-lhe aplicada uma nova regra ◦ Aplica-se uma nova regra, desta vez com outro descritor R5m+ terminal Pela análise da mesma é possível concluir: ◦ Quais os descritores escolhidos, e então, quais os mais importantes, assim como funcionam no modelo. No caso do exemplo → Um GS muito alto relaciona-se com mutagénico → Um GS e R5m+ muito baixos também se relacionam com mutagénico. ◦ Que regras utiliza para o modelo determinar se a molécula é ou não mutagénica;
27
Uma árvore pode ser construída recursivamente. O que quer dizer isto?
A árvore é construída recursivamente, cada regra dividindo o conjunto de dados dum nó em dois nós descendentes – objetos com valor abaixo dum determinado nível caem num dos nós descendentes e objetos com valores acima caem no outro nó descendente. Aos nós terminais ficam associadas previsões sobre a propriedade em estudo, que são obtidas pela maioria dos objetos do conjunto de treino que atingem esse nó (no caso de árvore de classificação) ou pela média da propriedade a modelar dos objetos do conjunto de treino que caem nesse nó (no caso de árvore de regressão).
28
Até que ponto uma árvore de decisão cresce?
A árvore cresce enquanto é possível diminuir a função de impureza mais do que um valor previamente definido. Ou então a árvore cresce até existirem apenas nós puros, ou com todos os objetos idênticos, sendo seguidamente podada de baixo para cima retirando algumas divisões com base numa medida de custo-complexidade. Finalmente, entre várias árvores possíveis, é escolhida a árvore que origina o mais baixo erro em validação cruzada.
29
Como funciona o método Leave-One-Out em árvores de decisão? Porque é que é um método bastante útil
Em cada repetição, construímos uma árvore de decisão utilizando todas as amostras exceto uma, e depois testamos a árvore justamente na amostra que ficou de fora. Avaliamos se a previsão feita pela árvore para aquele exemplo foi correta ou não. Depois de repetir esse processo para todas as amostras, calculamos métricas como a acurácia média ou o erro quadrático médio para medir o desempenho geral do modelo. O principal motivo para usar Leave-One-Out em árvores de decisão é avaliar cuidadosamente a capacidade de generalização do modelo. Essa técnica é especialmente útil quando se dispõe de poucos dados, pois permite aproveitar quase todo o conjunto para treinar o modelo em cada iteração. Além disso, o LOO ajuda a identificar se a árvore está a "decorar" os dados (overfitting) ou se realmente aprendeu padrões gerais que podem ser aplicados a novos casos.
30
Distingue árvores de decisão de classificação e regressão.
As árvores de decisão podem ser usadas para duas grandes tarefas: Classificação, onde o objetivo é prever categorias (por exemplo, "composto tóxico" vs "composto não tóxico"); Regressão, onde o objetivo é prever valores contínuos (como prever a constante de velocidade de uma reação). Exemplo rápido para fixar: Se você usa uma árvore de decisão para prever se uma molécula é ativa ou inativa → é uma árvore de classificação. Se você usa uma árvore de decisão para prever a solubilidade de uma molécula em números → é uma árvore de regressão.
31
Como funciona uma árvore de decisão de classificação?
Nas Árvores de classificação, ao termos um conjunto de objetos aleatórios, é importante assumir critérios para decidir quando devemos parar o treino e para avaliar quão boa é a técnica. Logo, o nosso algoritmo vai: ◦ Encontrar a melhor regra, isto é, encontrar uma primeira regra para separar em duas classes, sendo importante ter um bom critério de seleção, de acordo com os descritores disponíveis. ◦ Para tal, analisa, para todos os descritores, todos os valores possíveis de separação. Depois desta avaliação para todos os descritores e todos os valores possíveis, verifica qual destas possibilidades teve a melhor separação. Para que isto seja possível, deve-se definir, uma maneira quantitativa de avaliar se a separação foi boa ou má.
32
Qual é o parâmetro comum que as árvores de decisão de classificação costumam usar?
Um parâmetro usado é a entropia.
33
Explica o que é a entropia e como funciona relativamente às árvores de decisão de classificação.
Este vai avaliar quão misturados estão os objetos num nó, ou seja, quão misturadas estão as classes num determinado conjunto de objetos. Posteriormente, avalia-se se esse grau de mistura diminuiu ou não, pela aplicação da regra, assim como perceber o quão diminuiu esse grau de mistura. A entropia está associada: ◦ À desarrumação, ou seja, quanto mais misturadas estiverem as classes, maior é a desarrumação. ◦ Ao conteúdo de informação, apresentando uma maior entropia quando existe menos informação ◦ À mistura, onde se os objetos não estiverem misturados, ou seja, se todos os objetos de um subconjunto forem da mesma classe, quando vamos àquele subconjunto, já sabemos que são se uma determinada classe, tendo menos entropia, neste caso. Objetivo: diminuir a entropia + arrumação + informação - mistura
34
Uma definição comum para a entropia no nó t é definida com a seguinte fórmula matemática:
ver slides. t: nó j: corresponde à classe; p(j|t): proporção de objetos da classe j no nó t.
35
Como funciona a fórmula matemática da entropia em nó t?
Esta define a entropia de um conjunto de objetos, que corresponde ao somatório em todas as classes. Por exemplo, se tivermos duas classes, A e B, faz-se o somatório para a classe A e, depois, para a classe B. Se tivermos, num nó 30% de objetos da classe A e 70% de objetos da classe B: ◦ Para A, p(A|t)=0,3 ◦ Para B, p(B|t)=0,7 𝑖(𝑡)=−(0,3.log2(0,3)+0,7.log2(0,7))=0,88
36
Para avaliar o nível de divisão, s, do nó t...
avalia-se a informação ganha na divisão em tL e tR. Para avaliarmos se uma determinada regra ajuda ou não, mede-se a entropia do nó i(t), seguida da entropia dos dois ramos, que resultam da aplicação da regra e faz-se a diferença entre as entropias: ver slide pra fórmula pL: proporção de casos em t a irem para tL (sep esquerda pR: proporção a ir para tR. (sep direita) t: nó s: divisão Esta equação é dada pela diferença de entropia antes de aplicar a regra/divisão i(t), depois realizam-se os cálculos da medida de entropia para o nó da esquerda pLi(tL) e para o nó da direita pRi(tR). Cada uma delas é multiplicada pela proporção de objetos que foi para o nó da esquerda e da direita (pL e pR, respetivamente).
37
Nas Árvores de Regressão, treina-se o modelo para associar um valor real ao objeto. Ou seja...
Aqui, em vez de avaliarmos se uma regra divide bem os objetos (classe X para um lado e classe Y para outro), queremos avaliar se está a pôr num lado os objetos que tenham esse valor da propriedade a prever, parecido. Ou seja, se separa valores parecidos entre si, de uma mesma propriedade para um lado, e outros valores, também parecidos entre si, para outro. Associa-se a uma fórmula matemática que é baseada na variância. critério é aplicar a variância do nó antes de impor a regra (S) e obter a variância dos nós que resultam dessa mesma regra (St e Sf). No fim, calcula-se a diferença e avaliar a regra que permite uma maior diminuição da variância
38
Como é feita a previsão para moléculas novas? (árvores de decisão)
Cada ramificação da árvore termina num nó terminal. Quando se chega a esse nó terminal, a previsão é feita com base no valor/classe associada ao nó terminal, onde, no caso da: ◦ Árvore de Classificação, prevê-se a partir da classe maioritária do conjunto de treino que caiu nesse nó terminal. Vê-se quais foram os objetos do conjunto de treino que caíram nesse nó terminal e a que classe pertenciam. A classe maioritária desses objetos é a que fica associada a esse nó terminal. No modo de previsão, uma molécula que fique no nó terminal, classifica-se com essa classe maioritária associada. ◦ Árvore de Regressão: prevê-se, para o conjunto de treino, qual a média do valor associado à propriedade de todos os objetos que caíram no nó terminal, e essa mesma propriedade média fica associada ao nó terminal. No modo de previsão, quando tenho uma molécula no nó terminal, a previsão da molécula é o valor numérico associado a esse nó terminal.
39
Quando devemos parar de separar nas Árvores de classificação e regressão?
A previsão é feita com base no valor/classe associada ao nó terminal. ◦ Uma possível regra para parar de cortar: Ao princípio, estabelecer um limite para a variação de entropia (ganho de informação/redução de variância) e, quando, num determinado nó, já não for possível encontrar uma regra que execute nenhuma divisão acima do limite, declara-se o nó terminal ◦ Uma estratégia melhor: Crescer uma árvore muito grande até que todos os nós terminais sejam puros, pequenos ou contenham apenas vetores idênticos. Assim, recorre-se a uma cross validation, para comparar árvores de tamanhos diferentes e decidir qual a melhor. → Constrói-se uma árvore o maior possível, até que tenha objetos só da mesma classe, ou objetos com descritores completamente iguais; → experimentamos as subárvores que resultam de retirar uma das regras (ramos), fundindo os dois ramos que esta regra estava a produzir. Estas subárvores têm menos regras e o algoritmo avalia cada uma destas com o cross validation, ou seja, divide-se o conjunto de treino em n partes e fazemos n experiências, em que treinamos n-1 partes, obtendo as previsões para a parte que ficou de fora. A subárvore que obtiver o melhor resultado para a classificação/previsão fica.
40
Analisar Exemplo real de Árvore de Classificação: previsão da inibição de CYP34A
ver página 18 resumos.
41
Como se avaliam as previsões? O método mais comum é o melhor?
◦ Contar a quantidade de objetos do conjunto teste que foi bem classificada e a mal classificada. Este parâmetro observa-se na coluna da “Precisão”, onde temos que 72% e 73% foram bem classificados. No entanto, a percentagem da precisão, só por si, pode ser enganadora, se as duas classes não forem bem equilibradas, ou seja, não estiverem na mesma proporção de um determinado conjunto.
42
Para uma avaliação mais correta de previsões usam-se dois outros parâmetros:
a sensibilidade (total de inibidores que encontrou a dividir pelos inibidores existentes) e especificidade (total de não inibidores que encontrou a dividir pelos não inibidores existentes) que avaliam a capacidade de acertar os não inibidores e os inibidores.
43
Porque é que CART (árvores) é uma ferramenta de sucesso?
◦ Universalmente aplicável a problemas de classificação e regressão sem suposições sobre a estrutura de dados; ◦ O resultado mostra-se em forma da imagem da estrutura em árvore, que fornece informações valiosas sobre quais variáveis são importantes e como são importantes; ◦ Os nós terminais deram um agrupamento natural (clustering dos dados) em grupos homogéneos, que correspondem a uma mesma classe e que têm características comuns em termos dos descritores revelados pela árvore; ◦ Lida com dados ausentes e variáveis categóricas com eficiência; ◦ Funciona com variáveis numéricas (ficheiro CDK), assim como, com variáveis categóricas, ou seja, trabalhar com uma variável que não seja um número (exemplo: um esqueleto de um aminoácido, um açúcar e um lípido, como variáveis) ◦ Pode lidar com grandes conjuntos de dados, onde os requisitos computacionais estão na ordem de MNlogM , onde N é o número de casos e M é o número de variáveis.
44
Desvantagens do CART:
◦ Precisão: que se traduz na qualidade das previsões. Os métodos atuais, como SVMs, têm em média 30% menos taxas de erro que o CART; ◦ Instabilidade: se se alterar um pouco os dados, obtém-se uma árvore completamente diferente da árvore. Portanto, a interpretação do que se passa é construída sobre “areias movediças”.