TE1 Flashcards
(76 cards)
Qu’est-ce que la Recherche d’Information ?
L’ensemble des méthodes et techniques pour
- l’acquisition,
- l’organisation,
- le stockage,
- la recherche
- la sélection
d’information pertinente pour un utilisateur.
Quels sont les domaines d’application de la recherche d’information ?
– Recherche locales sur les forums, blogs, sites de news
– Recherche sur les réseaux sociaux (facebook, twitter, telegram, etc.)
– Recherche sur les sites internes des entreprises
– Recherche sur les sites de bibliothèques numériques – Recherche sur les sites spécialisés (médecine, droit, littérature, chimie, mathématique, brevets, etc.)
– Recherche local sur ordinateurs et appareils mobiles personnel (Mac OS Spotlight, Desktop search)
– En combinaison avec les autres applications: système de recommandation (Netflix, Amazon, etc.), analyse big data, etc.
Un document peut être … ?
– un texte complet (livre, article de news, blog)
– une partie de texte (chapitre, paragraphe, phrase)
– une page Web (html, php)
– une image
– une vidéo
– Etc.
Que fait requête ?
Exprime le besoin d’informations de l’utilisateur
Sous quelle forme se présente une requête ?
Peut être sous forme de description textuelle, mots clés, un exemple de document similaire, etc.
Comment définir la notion de pertinence ?
Un document pertinent est un document qui doit contenir l’information que l’utilisateur recherche.
– notion qui peut être complexe et subjective selon le contexte et qui dépend de
• l’utilisateur
• la requête
– c’est sur cette notion que les systèmes de recherche d’information sont jugés.
Qu’est-ce qu’une information structurée ?
Information structurée en champs => on se rapproche des systèmes de gestion de bases de données
– requête simple
– correspondance exact (SQL)
A quelle type d’information (structurée ou non), la RI s’intéresse-t-elle?
RI s’intéresse surtout à l’accès à l’information non-structurée, même si, dans les documents textuels, il peut y avoir une partie structurée: champs (auteur, date, titre, etc.)
Quel est le le problème central de la RI ?
Comment juger la pertinence est le problème central de la RI.
Quels types de besoin en information existe-t-il ?
– Ponctuel (adhoc)
– Récurrent (filtrage, alertes, flux RSS)
Ils utilisent les mêmes technologies.
Comment s’exprime un besoin ?
Langage de requêtes
– Texte libre, Liste de mots clés
– Avec ou sans opérateurs (AND, OR, NOT, etc.)
– Images
– Aucun : navigation dans une liste de concepts
Quel est le paradoxe de la RI (ASK) ?
- Une “requête idéale” doit comporter toutes les informations que l’utilisateur recherche –> la similarité serait maximale (doit avoir toutes les infos que l’utilisateur recherche)
- Or, l’utilisateur recherche une information qu’il ne connaît pas à priori, il ne peut donc pas l’exprimer (décrire) de manière précise (idéale)
Ce phénomène est qualifié par Belkin comme ASK : “Anomalous State of Knowledge”.
Comment évaluer un outil de recherche?
- Précision: fraction de documents récupérés correspondant au besoin d’informations de l’utilisateur
- Rappel: fraction de documents pertinents dans la collection qui sont récupérés
Quel est le modèle le plus simple pour fonder un système de recherche d’information ?
Le modèle booléen
Google utilise-t-il le modèle booléen?
Pas tout-à-fait mais il se base dessus.
– Oui, car on peut spécifier les opérateurs de recherche booléenne.
– Oui, car il essaie au mieux de respecter l’expression booléenne de la requête.
– Non, car il permet de faire un classement des résultats.
• Sur Google, l’interprétation par default d’une requête sous forme de w(1) w(2) …w(n) est :
– w(1) AND w(2) AND … AND w(n)
• Il y a pourtant des cas où on obtient des résultats qui ne contiennent pas un w(i) :
– le terme était présent sur le lien qui pointe la page (texte d’ancre)
– la page contient une variante de w(i) (morphologie, correction orthographique, synonyme)
– expression booléenne génère très peu de résultats
Quelle est la différence principale entre le modèle booléen et le modèle utilisé par Google ?
- La recherche booléenne simple renvoie les documents correspondants sans ordre particulier.
- Google (et le moteurs de recherche les mieux conçus) classe l’ensemble de résultats. Il utilise certains estimateurs pour classer les bons résultats plus haut que les mauvais résultats: ranking.
Qu’est-ce qu’une matrice d’incidence terme-document ?
La solution pour éviter de parcourir linéairement les textes à chaque nouvelle requête –> elle consiste à indexer les documents à l’avance.
Prenons les vecteurs d’incidence suivant: Antony 110001, Cleopatra 100000 et Calpurnia 010000.
Quel est le vecteur d’incidence correspondant à la requête “(Antony or Cleopatra) and not Calpurnia”?
100001
Quelle est la structure clé de la RI ?
Index inversé
Qu’est-ce que l’index inversé ?
Pour chaque terme t, on stocke la liste de tous les documents qui contiennent t. Chaque document est identifié par un docID, un numéro de série de document.
Brutus –> 1, 2, 4, 11, 31, 45, 173, 174
Caesar –> 1, 2, 4, 5, 6, 16, 57, 132
Calpurnia –> 2, 31, 54, 101
Quelles sont les premières étapes du traitement de texte ?
- Tokenisation
- Normalisation
- Stemming (racinisation)
- Stop words (mots-vides)
En quoi consiste la tokenisation ?
Couper la séquence de caractères en tokens de mots. S’occuper des cas tels que John’s, a state-of-the-art solution.
En quoi consiste la normalisation ?
Mapper le texte et les termes de requêtes à la même forme. Vous voulez que U.S.A. et USA correspondent.
En quoi consiste le stemming (racination) ?
Nous pouvons souhaiter que différentes formes d’une racine correspondent
• kill, killed