Recherche d'information

Un article de Wikipédia, l'encyclopédie libre.

Vous avez de nouveaux messages (diff^?).

Abrégée en RI ou IR (Information Retrieval en anglais), la recherche d'information est un domaine historiquement lié aux Sciences de l'information et à la bibliothéconomie qui ont toujours eu le souci d’établir des représentations des documents dans le but d'en récupérer des informations, à travers la construction d’index. L’informatique a permis le développement d’outils pour traiter l’information et établir la représentation des documents au moment de leur indexation, ainsi que pour rechercher l’information. On peut aujourd'hui dire que la recherche d'information est un champ transdisciplinaire, qui peut être étudié par plusieurs disciplines, approche qui devrait permettre de trouver des solutions pour améliorer son efficacité. Au sens large, la recherche d'information inclut deux aspects :

l'indexation des corpus, et
l'interrogation du fonds documentaire ainsi constitué.

En un sens plus strict, le recherche d'information pourrait se réduire au deuxième aspect ; mais la grande interdépendance des deux et la fréquente mise en œuvre de techniques communes a conduit à favoriser la première acception comme l'atteste l'existence d'un important groupe de travail (SIGIR, Special Interest Group for Information Retrieval) dans l'association internationale ACM (Association for Computing Machinery), ainsi qu'une série de conférences organisées à ce sujet par le NIST : TREC (Text REtrieval Conference, mais traitant aussi d'aspects multimédia).

[modifier] Introduction

Avec l'apparition des premiers ordinateurs naquit l'idée d'utiliser des machines pour automatiser la Recherche d'Information dans les bibliothèques. Les premiers systèmes sont utilisés par des libraires et permettent d'effectuer des recherches booléennes, c'est à dire des recherches où la présence ou l'absence d'un terme dans un document conduit à la sélection du document. Ces recherches nécessitent plusieurs intermédiaires et surtout de gros moyens : il faut en effet créer une nomenclature permettant de décrire l'ensemble des documents et sélectionner pour chaque document un ensemble de mots-clé.

Cette description par mots-clé (indexation) suppose du libraire une connaissance suffisante pour traduire une question, qui peut être plus ou moins précise, en un ensemble de descripteurs. De plus, le jeu de descripteurs n'est souvent ni suffisant, ni assez précis pour décrire n'importe quel document. Il se peut aussi, que pour des problèmes de synonymie, certains documents répondant à la question d'un utilisateur puissent ne pas être retrouvés. La description manuelle est donc un processus lent et qui ne garantit pas de bons résultats.

Or, il est tout à fait possible d'extraire directement du texte un ensemble de descripteurs. Les premières expériences montrent même que cette approche est tout à fait viable et compétitive par rapport à l'indexation manuelle. L'utilisation grandissante importante des logiciels de traitements de texte, et par là même la mise à disposition de quantités de plus en plus importantes de textes directement interprétables par l'ordinateur va alors entraîner le développement rapide des modèles de RI. Ces deux aspects, l'indexation et la recherche sont au cœur des problèmes abordées par la RI. L'indexation et la recherche ont très rapidement évolué d'une modélisation booléenne de la recherche (un terme représente ou ne représente pas le document dans le cas de l'indexation, un document répond ou ne répond pas à la question) à des modèles vectoriels ou probabilistes.

La pertinence d'un document pour une question dans des modèles qui sont basés sur une représentation imprécise des documents et des questions s'exprime dans les modèles de RI sous la forme d'un score. Ce score ne permet plus une validation automatique des systèmes de RI. En effet, pour la question « le document doit contenir le mot chèvre et élevage », un document contenant le mot « chèvre » et « élevage » est une bonne réponse, contrairement à un document qui ne les contiennent pas. Lorsque la question devient « le document doit avoir pour thème l'élevage des chèvres », un document qui parle de soin des chèvres sans utiliser le mot « élevage » sera une bonne réponse, mais aura un score moins important qu'un document qui parle directement de l'élevage des chèvres.

Il est donc impossible de prouver qu'un système de RI est performant puisque le score rend vague la notion de bonne réponse : un document répond plus ou moins bien à une question. La notion de pertinence d'un document pour une question émerge donc en même temps que les premiers systèmes de RI, avec les premières mesures permettant de comparer les différents résultats renvoyés par les systèmes de RI. Les premières mesures, encore largement employées aujourd'hui, sont la précision et le rappel. Un système de RI sera très précis si presque tous les documents renvoyés sont pertinents. Un système de RI aura beaucoup de rappel s'il renvoie la plupart des documents pertinents du corpus pour une question. En général, plus un système de RI est précis, moins il a de rappel et inversement.

Très vite, des problématiques connexes se sont aussi greffées autour de la RI. Parmi les plus courantes et les plus utiles, l'interaction avec l'utilisateur permet d'obtenir progressivement des documents de plus en plus pertinents. Certains se sont ensuite essayés à simuler cette interaction, ou au moins une partie, en proposant des techniques permettant « d'enrichir » la question — en ajoutant par exemple des termes qui n'étaient pas dans la question originale.

De la recherche documentaire proprement dite, le domaine évolue vers des tâches proches, comme la classification qui permet de regrouper entre eux des documents ayant des thématiques proches, le classement qui a pour but de classer les documents dans un ensemble de catégories prédéfinies. Puis, à mesure que la notion de document et d'unité d'information devient plus floue, les tâches d'extraction d'information et de résumé automatique apparaissent. Actuellement, le domaine regroupe plusieurs thématiques de recherche et évolue avec l'apparition de nouveaux types de corpus, de documents et de besoins d'utilisateurs. Les conférences TREC et SIGIR donnent un aperçu de la diversité des recherches menées aujourd'hui dans le domaine général de la RI.

[modifier] Composantes

[modifier] Prétraitements

La première étape en RI est d'établir de ces techniques permettant de passer d'un document textuel à une représentation exploitable par un modèle de RI. Cette transformation est scindée en deux étapes distinctes et correspond à l'indexation des documents :

Il faut extraire d'un texte un ensemble de descripteurs. Ceux-ci sont la plupart du temps l'ensemble des termes qui apparaissent dans un document, souvent transformés (lemmatisation, ...)
A l'aide de ce jeu de descripteurs, il est possible de représenter le document par un vecteur dans l'espace des termes. Il est également possible d'utiliser des connaissances a priori sur la façon dont les termes sont répartis dans les documents suivant leur importance.

[modifier] Recherche

Une fois les documents transformés, il est possible de rechercher ceux qui répondent le mieux à une question d'un utilisateur. Plusieurs approches peuvent être distinguées :

L'approche ensembliste qui considère que l'ensemble des documents s'obtient par une série d'opérations (intersection, union et le passage au complémentaire). Le langage de requête SQL1 correspond à cette approche dite aussi de logique de premier niveau.
L'approche algébrique (ou vectorielle) qui considère que les documents et les questions font partie d'un même espace vectoriel.
L'approche probabiliste qui essaie de modéliser la notion de pertinence.

Il est enfin possible d'utiliser des modèles capables d'interagir avec l'utilisateur, afin d'améliorer petit à petit les réponses du système de RI au cours d'une session - l'utilisateur indiquant à chaque fois les documents pertinents pour sa question. Ces indications peuvent aussi servir pour améliorer globalement le fonctionnement du système de RI.

[modifier] Mesures

En RI, la mise au point des modèles passe par une phase expérimentale qui suppose l'utilisation de métriques qui ont pour but de permettre la comparaison des modèles entre eux ou la mise au point de leur paramètres. Ces mesures supposent connus un jeu de questions et les réponses pertinentes dans un corpus donné. Deux concepts simples comme le rappel (proportion de documents pertinents renvoyés par le système parmi tous ceux qui sont pertinents) et la précision (proportion des documents pertinents parmi l'ensemble de ceux renvoyés par le système) ont été étendus pour permettre une analyse fine des performances de système de RI.