04 - MACHINE LEARNING COM PYTHON - UND I e II - DT Flashcards

Question

25 - Com relação ao estudo da técnica Feature Selection, Qui-Quadrado, por que o maior valor para o chi2 (χ2 --> não é x, é a letra grega chi) é a mais relevante?

Answer 1

O qui-quadrado mede a diferença entre a distribuição esperada (1ª observação) da distribuição observada (2ª observação) das variáveis categóricas. Quanto maior a diferença, maior é o valor de chi2 e maior é a probabilidade de que a relação entre as variáveis não seja por acaso.

Answer 2

Quando as observações das variáveis categóricas seguem a distribuição esperada (a 1ª), isto indica que não há uma relação entre as variáveis e que a correlação é puramente aleatória. Por outro lado, se houver uma diferença significativa entre a distribuição esperada (a 1ª) e a distribuição observada (a 2ª), isso indica que há uma relação entre as variáveis e que a correlação não é aleatória. Quanto maior a diferença, maior é a probabilidade de que a relação entre as variáveis não seja por acaso. Em outras palavras, o qui-quadrado é uma medida de quanto as observações diferem da distribuição esperada se não houvesse relação entre as variáveis. Quanto maior a diferença, maior é o valor de chi2 e menor é a probabilidade de que a relação seja por acaso, ou seja, maior é a probabilidade de que a relação entre as variáveis seja real e não aleatória.

Answer 3

A Suavização de Laplace é para resolver o problema da probabilidade zero nas funções (NB – TEOREMA DE NAIVE BAYES) MultinomialNB e BernoulliNB. Se multiplicar uma probabilidade zero, em sua fórmula, vai zerar todas as probabilidade multiplicada por ela. Não é porque não existe uma das probabilidades em uma das variáveis que nas outras variáveis, probabilidades, não exista também.

Answer 4

1 - KNN 2 - KMeans (clusterização) 3 - Redução de Dimensionalidade PCA 4 - SVM - Support Vector Machine. 5 - Sistema de Recomendação - surprise

Answer 5

1 - max_iter: número de interações desejado (número de correções feito, de aferição dos centroides, na separação dos cluster) 2 - init: números de vezes que se vai repetir as interações (max_iter). 3 - tol: tol de tolerância. Calibra o deslocamento do centroide, que vai ser considerado como modelo estável. Quando o modelo ver que o deslocamento do centroide está menor do parâmetro fornecido, ele entende que o modelo está estável. 4 - n_clusters: é o número de clusters(k). 5 - int: é a ativação do K-Means++ (lição79-DT)

Answer 6

lição 37,77 3 81

Answer 7

1 - Importa o Pandas 2 - Importa o dataset 3 - separa os dados em preditoras (x) e target (y) 4 - Normaliza os dados preditoras (x_norm) 5 - Modela o algoritmo PCA e dá um fit., transformando o x_norm em x_pca. 6 - Aplica train_test_split no x_pca e y 7 - Escolhe um algoritmo de ML, modela e dá um fit(com o x_treino, y_treino) 8 - Imprima o resultado (score = modelo.score(x_teste, y_teste) Esses componentes principais podem ser usados como entradas para algoritmos de classificação ou regressão (lição - 84)

Answer 8

Na biblioteca scikit-learn (sklearn) do Python, o parâmetro "shuffle" é usado em algoritmos de aprendizado de máquina para embaralhar (aleatorizar) os dados de treinamento antes de cada época (iteração) do treinamento. Por padrão, a maioria dos algoritmos de aprendizado de máquina no sklearn não embaralham os dados antes de cada época, o que pode ser problemático em alguns casos. Quando os dados são organizados de maneira sistemática, como em uma ordem crescente ou decrescente de acordo com alguma característica, o algoritmo pode aprender apenas a ordem dos dados, em vez de aprender a relação entre as características e o resultado. Além disso, se houver uma tendência nos dados, como uma variação sazonal ou uma tendência linear, o modelo pode acabar aprendendo essa tendência e não o relacionamento real entre as características e o resultado. Ao definir o parâmetro "shuffle" como True, o conjunto de dados de treinamento será embaralhado aleatoriamente antes de cada época. Isso ajuda a garantir que o modelo não aprenda apenas a ordem dos dados e a tendência dos dados, mas sim a relação entre as características e o resultado. É importante notar que, em alguns casos, como séries temporais, pode não ser adequado embaralhar os dados, pois a ordem dos dados é importante para a modelagem. Regenerate response ChatGPT

Answer 9

1 - shuffle=True" quer dizer para mandar embaralhar os dados. 2 - Este embaralhamento ocorre antes do treino, e isso faz com que o algoritmo aprenda mais. 3 - Tira o viés dos dados de teste no embaralhamento. 4 - O Train_Test_split seu padrão já é "shuffle=True". 5 - O StratifiedKFold não é padrão True. 6 -Kfold não é padrão True.

Answer 10

Ensemble Existem duas abordagens principais para o ensemble: o Bagging e o Boosting. 1 - Bagging Bagging é uma técnica de ensemble que envolve a construção de vários modelos independentes, onde cada modelo é treinado em um conjunto de dados diferente. Esses conjuntos de dados são criados a partir do conjunto de treinamento original, selecionando aleatoriamente exemplos com substituição. O resultado final é obtido pela média das previsões de cada modelo. A ideia é que a variância do modelo geral seja reduzida, já que cada modelo é treinado em um conjunto de dados diferente e, portanto, está sujeito a diferentes fontes de variação. No scikit-learn, a classe BaggingClassifier é usada para implementar essa técnica para algoritmos de classificação, enquanto a classe BaggingRegressor é usada para algoritmos de regressão. from sklearn.ensemble import RandomForestRegressor from sklearn.ensemble import ExtraTreesClassifier 2.1 - Boosting O Boosting é outra técnica de ensemble que envolve a construção de vários modelos sequenciais, onde cada modelo é treinado para corrigir os erros do modelo anterior. O primeiro modelo é treinado no conjunto de dados original, enquanto os modelos subsequentes são treinados em uma versão modificada do conjunto de dados, onde os exemplos que foram classificados incorretamente pelo modelo anterior recebem mais peso. O resultado final é uma combinação ponderada das previsões de cada modelo. A ideia é que os modelos subsequentes se concentrem nas áreas em que os modelos anteriores falharam. No scikit-learn, a classe GradientBoostingClassifier é usada para implementar essa técnica para algoritmos de classificação, enquanto a classe GradientBoostingRegressor é usada para algoritmos de regressão. 2.2 - Boosting O Boosting é uma técnica de ensemble que combina vários modelos de aprendizado de máquina para melhorar a precisão geral do modelo. O Boosting é uma técnica sequencial que ajusta o modelo iterativamente em cada iteração. Em cada iteração, o modelo atual é treinado no conjunto de dados original, com ênfase nos exemplos classificados incorretamente pelo modelo anterior. O resultado final é uma combinação ponderada dos modelos treinados em cada iteração. O objetivo do Boosting é melhorar a precisão geral do modelo, ajustando-o iterativamente para que se concentre nos exemplos difíceis. No scikit-learn, a classe AdaBoostClassifier é usada para implementar essa técnica para algoritmos de classificação, enquanto a classe AdaBoostRegressor é usada para algoritmos de regressão. AGRADIENTBOOST Regenerate response ChatGPT Feb 13 Version. Free Research Previ

Answer 11

01. Cold Start (partida a frio) é um termo usado no campo do aprendizado de máquina para descrever a situação em que uma máquina ou algoritmo de aprendizado de máquina é exposto a um conjunto de dados ou um problema que ele nunca viu antes. Isso pode ocorrer quando uma nova máquina está sendo implementada, ou quando um modelo de aprendizado de máquina está sendo aplicado a um novo conjunto de dados ou problema. Exemplo, um usuário do Netiflix acabou de criar sua conta 02. Existem algumas técnicas para lidar com o problema do cold start, como: 1 - Utilizar dados de treinamento prévios de fontes semelhantes, se disponíveis. 2 - Utilizar técnicas de aprendizado sem supervisionado para explorar os dados e extrair características úteis. 3 - Utilizar técnicas de transfer learning, onde um modelo pré-treinado é adaptado ao novo

Answer 12

01. Esta filtragem consiste basicamente em trazer recomendações com base nas características dos produtos e ou serviços. Exemplo da Netflix. A recomendação da Netflix será baseada nas características dos filmes já anteriormente assistido. Se tem o costume de assistir filmes de ação, ele vai recomendar filmes de ação. São as caraterísticas (features) dos produtos consumidos que é levado em conta nesta filtragem. 02. Vantagens. Não necessita muitos dados para se começar a fazer as recomendações. Com poucos filmes assistidos, já é possível recomendar um filme semelhante as que foram assistidos. 03. Desvantagens. Transforma o consumo do cliente em uma bolha (bolha de recomendação). Não vai sugerir ideias fora da caixa. Exemplo do site da Amazon. Cliente comprou jogos de vídeo game. Neste tipo de filtragem, iria sugerir o mesmo tipo de jogo para o cliente. Isso seria uma limitação. Caso usasse uma filtragem colaborativa, neste caso, ela iria oferecer também uma placa de vídeo para quem gosta de jogar aquele tipo de jogo. Ou um teclado ou joystick.

Answer 13

01. Não tem o foco nas características dos produtos consumidos. Seu foco é nas interações do usuário com os conteúdos, em vez das características dos produtos em si. Não se limita a trazer o produto, mas as preferências dos outros usuários (que consomem o mesmo produto). 02. Exemplo da Netflix. As pessoas que consomem o filme X, o que elas têm em comum? Que tipo de pessoa que consome o filme X? Este grupo, consome também o filme Y? Se sim, vamos recomendar o filme Y para os membros do grupo X que ainda não assistiram o filme Y. Seria informações cruzadas entres as preferências de pessoas com as mesmas características, com o mesmo perfil. Por esta razão que se chama sistema de colaboração. 03. Vantagens. Não fica limitado em uma esfera das características dos produtos. A filtragem colaborativa pode oferecer filme que nem o cliente pensou em ver ou saberia de sua existência. As pessoas não sabem totalmente o que elas querem. 04. Na Amazon, em alguns casos, este tipo de recomendação é responsável por 60% de suas vendas. 05. Desvantagens. A quantidade de filme é muito vasta. O cliente vai assistir dezenas até centenas, mas não vai assistir tudo. Isso faz com que o dataset, onde as linhas são os usuários e as colunas os produtos, apresente muitos dados missing (NaN). A matriz será muito grande e o custo computacional também vai ser. Precisa de muitos dados do usuário para trazer algo relevante para ele. Precisa que o cliente interaja bem com a plataforma.

Answer 14

1 - Método Cosine Distance (Método Distância Cosseno) / Similarity 2 - Método Matrix Factorization (Fatoração Matricial) / SVD++

Answer 15

NOSSOS ALGORITMOS DE CLASSIFICAÇÃO: 1 - LogisticRegression. 2 - KNeighborsClassifier - KNN. 3 - TEOREMA DE NAIVE BAYES. 4 - DecisionTreeClassifier. 5 - RandomForestClassifier.(Ensemble - Bagging) 6 - ExtraTreesClassifier.(Ensemble - Bagging) 7 - AdaBoostClassifier.(Ensemble - Boosting) 8 - GradientBoostingClassifier.(Ensemble - Boosting) 9 - BaggingClassifier.(Ensemble - Bagging) 10 - SVM (SVC).

Answer 16

1- make_regression (criar massa de dados) 2 - LinearRegression 3 - Ridge 4 - Lasso 5 - ElasticNet 6 - DecisionTreeRegressor. 7 - RandomForestRegressor.(Ensemble - Bagging) 8 - ExtraTreesRegressor.(Ensemble - Bagging) 9 - AdaBoostRegressor.(Ensemble - Boosting) 10 - GradientBoostingRegressor.(Ensemble - Boosting) 11 - BaggingRegressor.(Ensemble - Bagging) 12 - SVM (SVR).

Answer 17

from sklearn.cluster import KMeans

Answer 18

Principal Component Analysis – PCA – REDUÇÃO DE DIMENSIONALIDADE

04 - MACHINE LEARNING COM PYTHON - UND I e II - DT Flashcards

(42 cards)