CIÊNCIA DE DADOS Flashcards
(121 cards)
O problema de underfitting ocorre quando o modelo não se ajusta aos dados de treinamento, enquanto o overfitting ocorre quando o modelo não se ajusta a novos dados.
CERTO
Overfitting:
Excesso de dados (ruidosos)
Desempenho Excelente no treinamento
Desempenho ruim no teste, pois não se ajusta a novos dados
Underfitting:
Poucos dados
Desempenho ruim já no treinamento
Não consegue encontrar relação entre as variáveis
O aprendizado supervisionado utiliza a regressão para entender a relação entre variáveis dependentes e independentes.
CERTO
Aprendizado de máquina pode ser definido como a criação e o uso de modelos que são aprendidos a partir dos dados.
CERTO
é um subcampo da inteligência artificial que se concentra no desenvolvimento de algoritmos e modelos computacionais que aprendem padrões e relações a partir de dados, sem uma programação explícita.
Um dos autores mais influentes em machine learning, Tom Mitchell, destaca três elementos-chave do Aprendizado de Máquina:
1. Experiência: ……………………………
2. Tarefa:……………………
3. Medida de desempenho: ……………………….
- Experiência: dados de entrada para treinar o algoritmo
- Tarefa: atividade de execução: como classificação, previsão, agrupamento, etc.
- Medida de desempenho: métrica de avaliação para quantificar o quão bem o algoritmo está realizando a tarefa
O aprendizado ……………………… é um dos tipos mais comuns de aprendizado de máquina, onde o algoritmo é treinado em um conjunto de dados rotulados, ou seja, cada exemplo de treinamento possui uma entrada e a saída desejada correspondente. Um exemplo prático é um modelo de classificação de e-mails, onde o algoritmo é treinado com exemplos rotulados de e-mails como spam ou não spam.
supervisionado
o algoritmo recebe feedback explícito sobre sua saída em relação às saídas esperadas. Essa supervisão permite que o algoritmo ajuste seus parâmetros iterativamente para minimizar a discrepância entre suas previsões e os rótulos verdadeiros dos dados.
…………………………..é um subcampo da inteligência artificial que consiste no treinamento de modelos computacionais para que possam reconhecer padrões e, a partir de um conjunto de dados de entrada, prever o valor de uma variável de saída.
Aprendizado de máquina é um subcampo da inteligência artificial que consiste no treinamento de modelos computacionais para que possam reconhecer padrões e, a partir de um conjunto de dados de entrada, prever o valor de uma variável de saída. Em relação ao aprendizado de máquina, julgue o item a seguir.
…………………………. é uma representação simplificada de um sistema complexo que é usado para facilitar a compreensão, análise ou previsão desse sistema. Em aprendizado de máquina, é uma função matemática que relaciona entradas de dados a saídas esperadas.
MODELO
O objetivo do treinamento do modelo é encontrar os parâmetros que melhor ajustam os dados de treinamento, de modo que o modelo possa fazer previsões precisas sobre novos dados.
……………………….: São os parâmetros de nível superior que você define manualmente antes de iniciar o treinamento, que se baseiam em propriedades como as características dos dados e a capacidade de aprendizado algoritmo.
HIPERPAR METROS
Um fluxo ou pipeline de um projeto de aprendizado de máquina pode ser exemplificado nas seguintes etapas:
1) Ingestão de dados
2)
3)
4)
5)
6)
1) Ingestão de dados
2) Exploração de dados
3) Processado dos dados
4) Treinamento do modelo
5) Validação e análise do modelo
6) Deployment do modelo
O objetivo dos modelos de Aprendizado de Máquina é estimar a função que melhor se ajusta aos dados de entrada para realizar previsões corretas de forma generalizada. Para avaliar e otimizar o desempenho do modelo, consideramos dois aspectos fundamentais: …………………….. e …………………
viés e variância.
Ambos têm impacto direto no desempenho do modelo e na sua capacidade de generalização para novos dados. Um modelo com alto viés e baixa variância tende a subestimar a complexidade dos dados, enquanto um modelo com baixo viés e alta variância pode estar superajustando aos dados de treinamento, não generalizando bem para novos dados.
Overfitting está relacionado a ……………….. viés e ………………… variância.
Baixo Viés e Alta Variância - O modelo está superestimando (overfitting) nos dados de treino e não generaliza bem com dados novos.
Underfiting está relacionado a ……………….. viés e ………………… variância.
Alto Viés e Baixa Variância - O modelo está subestimando (underfitting) nos dados de treino e não captura a relação verdadeira entre as variáveis preditoras e a variável resposta.
Para evitar o overfitting, existem algumas estratégias:
1)
2)
3)
- Simplificar o modelo
- Aumentar o tamanho do conjunto de treinamento
- Reduzir o ruído nos dados de treinamento: Corrigir erros nos dados e remover outliers podem ajudar a reduzir o ruído e melhorar a capacidade de generalização do modelo.
…………………………. - Uma tabela NxN que resume o sucesso das previsões de um modelo de classificação; ou seja, a correlação entre o rótulo e a classificação do modelo. Um eixo de uma matriz de confusão é o rótulo que o modelo previu e o outro eixo é o rótulo real. N representa o número de classes. Em um problema de classificação binária, N=2
Matriz de confusão
A Matriz de confusão é uma tabela NxN que resume o sucesso das previsões de um modelo de …………………….
classificação
A ………………………….. permite avaliar o desempenho de um modelo de classificação a partir da frequência de erros e acertos.
matriz de confusão
Dropout - Uma forma de regularização útil no treinamento de redes neurais. Funciona removendo uma seleção aleatória de um número fixo de unidades em uma camada de rede para uma única etapa de gradiente.
CERTO
A regressão ………………………. é usada para problemas de classificação binária, onde a saída é uma variável categórica com duas classes. Por exemplo, prever se um e-mail é spam ou não.
Regressão Logística
Utilizada para problemas de classificação binária, onde o objetivo é prever uma das duas classes possíveis.
…………………………………… é uma técnica estatística utilizada para modelar a relação entre uma variável dependente categórica binária (ou multinomial) e uma ou mais variáveis independentes. Ela é frequentemente empregada em situações em que estamos interessados em prever a probabilidade de ocorrência de um evento, como prever se um paciente tem uma determinada doença com base em suas características clínicas.
regressão logística
Os parâmetros do modelo de regressão logística são estimados usando técnicas de máxima verossimilhança ou métodos de mínimos quadrados. O objetivo é encontrar os valores dos coeficientes de regressão que maximizam a verossimilhança dos dados observados. Este processo é realizado iterativamente até que a convergência seja alcançada.
O aprendizado SUPERVISIONADO e NÃO SUPERVISIONADO dividem-se em quais técnicas?
SUPERVISIONADO:
1) Técnicas de Classificação
2) Técnicas de Regressão
NÃO SUPERVISIONADO:
1) Técnicas de Agrupamento
2) Técnicas de Redução de Dimensionalidade
3) Técnicas de Associação
Cite 7 tarefas/técnicas de CLASSIFICAÇÃO
1) Regressão Logística
2) Máquinas de Vetores de Suporte (SVM)
3) K-Vizinhos Mais Próximos (KNN)
4) Árvores de Decisão
5) Florestas Aleatórias
6) Redes Neurais
7) Naive Bayes
O modelo de regressão logística …………………… é diferente porque trabalha com o conceito de categorias ordenadas. Neste caso, os objetos são classificados em três ou mais classes que possuem uma ordem já determinada. Por exemplo, o desempenho do atleta é ruim, justo ou excelente. Outro exemplo: o grau de satisfação do paciente com o tratamento é insatisfeito, satisfeito ou muito satisfeito.
ORDINAL
REGRESSÃO LOGÍSTICA BINOMINAL - Duas classes de forma Ordenadas.
REGRESSÃO LOGÍSTICA ORDINAL - Tres ou mais classes de forma Ordenadas.
REGRESSÃO LOGÍSTICA MULTINOMIAL -Tres ou mais classes que NÃO possui Ordem.
Qual é a técnica que pode ser utilizada para sugerir que aqueles clientes que compraram o produto A também compraram o produto B, ou que aqueles clientes que compraram os produtos A, B e C são mais similares que os clientes que compraram o produto A?
Regras de associação: identificação de grupos de dados que apresentam co-ocorrência entre si, por exemplo, uma cesta de compras. A tarefa de descoberta de associações compreende a busca por itens que frequentemente ocorrem de forma simultânea em uma quantidade mínima de transações do conjunto de dados.
Qual técnica e tarefa?
A analista Carla implementou uma solução algorítmica que classifica os novos processos submetidos à PGM de Niterói em níveis de indício de fraude. Para atingir este objetivo, Carla se baseou no algoritmo de machine learning para classificação que atribui, necessariamente, um valor no intervalo numérico de 0 a 1 para cada entrada. Carla utilizou como base o algoritmo de machine learning: ……………………….
Técnicas de Classificação - Regressão Logística
REGRESSAO LOGISTICA é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias.