Moteur de recherche
Un moteur
de recherche est un logiciel permettant de retrouver des ressources (pages web,
forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques.
Certains sites web offrent un moteur de recherche comme principale
fonctionnalité ; on appelle alors moteur de recherche le site lui-même
(Dailymotion, YouTube, Google Video, etc. sont des moteurs de recherche vidéo).
Outil de
recherche sur le web constitué de « robots », encore appelés bots, spiders,
crawlers ou agents qui parcourent les sites à intervalles réguliers et de façon
automatique (sans intervention humaine, ce qui les distingue des annuaires)
pour découvrir de nouvelles adresses (URL). Ils suivent les liens hypertextes
(qui relient les pages les unes aux autres) rencontrés sur chaque page
atteinte. Chaque page identifiée est alors indexée dans une base de données,
accessible ensuite par les internautes à partir de mots-clés.
Par abus de
langage, on appelle également moteurs de recherche des sites web proposant des
annuaires de sites web : dans ce cas, ce sont des ressources humaines qui
répertorient et classifient des sites web jugés dignes d'intérêt et non des
robots d'indexation — on peut citer par exemple Voilà et Yahoo!, etc.
Les moteurs
de recherche ne s'appliquent pas qu'à Internet : certains moteurs sont des
logiciels installés sur un ordinateur personnel. Ce sont des moteurs dits
desktop qui combinent la recherche parmi les fichiers stockés sur le PC et la
recherche parmi les sites web — on peut citer par exemple Exalead Desktop,
Google Desktop et Copernic Desktop Search, etc.
On trouve
également des métamoteurs, c'est-à-dire des sites web où une même recherche est
lancée simultanément sur plusieurs moteurs de recherche (les résultats étant
ensuite fusionnés pour être présentés à l'internaute) — on peut citer Mamma,
Kartoo, Seek.fr, etc.
Plus
récemment, on trouve également des annuaires qui exploitent des systèmes de
folksonomie à base de tags (ou étiquettes) positionnés par les internautes.
Fonctionnement
Le fonctionnement d'un moteur de recherche se décompose en
trois étapes principales :
L'exploration ou crawl : le web est systématiquement exploré
par un robot d'indexation suivant récursivement tous les hyperliens qu'il
trouve et récupérant les ressources jugées intéressantes. L'exploration est
lancée depuis une ressource pivot, comme une page d'annuaire web. Un moteur de
recherche est d'abord un outil d'indexation, c'est-à-dire qu'il dispose d'une
technologie de collecte de documents à distance sur les sites web, via un outil
que l'on appelle robot ou bot. Un robot d'indexation dispose de sa propre
signature (comme chaque navigateur web). Googlebot est le user agent
(signature) du crawler de Google
L'indexation des ressources récupérées consiste à extraire
les mots considérés comme significatifs du corpus à explorer. Les mots extraits
sont enregistrés dans une base de données organisée comme un gigantesque
dictionnaire inverse ou, plus exactement, comme l'index terminologique d'un
ouvrage, qui permet de retrouver rapidement dans quel chapitre de l'ouvrage se
situe un terme significatif donné. Les termes non significatifs s'appellent des
mots vides. Les termes significatifs sont associés à une valeur de poids. Ce
poids correspond à une probabilité d'apparition du mot dans un document. Cette
probabilité est indiquée sous la forme d'une "fréquence de terme", ou
"inverse de fréquence de terme" et est souvent calculée par la
formule TF-IDF.
La recherche correspond à la partie requêtes du moteur, qui
restitue les résultats. Un algorithme est appliqué pour identifier dans le
corpus documentaire (en utilisant l'index), les documents qui correspondent le
mieux aux mots contenus dans la requête, afin de présenter les résultats des
recherches par ordre de pertinence supposée. Les algorithmes de recherche font
l'objet de très nombreuses investigations scientifiques. Les moteurs de
recherche les plus simples se contentent de requêtes booléennes pour comparer
les mots d'une requête avec ceux des documents. Mais cette méthode atteint vite
ses limites sur des corpus volumineux. Les moteurs plus évoluées utilisent la
formule TF-IDF pour mettre en perspective le poids des mots dans une requête
avec ceux contenus dans les documents. Cette formule est utilisée pour
construire des vecteurs de mots, comparés dans un espaces vectoriel, par une
mesure de Cosinus (la similarité Cosine). Pour améliorer encore les
performances d'un moteur, il existe de nombreuses techniques, la plus connue
étant celle du PageRank de Google qui permet de pondérer une mesure de cosinus
en utilisant un indice de notoriété de pages. Les recherches les plus récentes
utilisent la méthode dîtes d'analyse sémantique latente qui tente d'introduire
l'idée de co-occurrences dans la recherche de résultats (le terme
"voiture" est automatiquement associé à ses mots proches tels que
"garage" ou un nom de marque dans le critère de recherche).
Des modules complémentaires sont souvent utilisés en
association avec les trois briques de bases du moteur de recherche. Les plus
connus sont les suivants :
Le correcteur orthographique : il permet de corriger les
erreurs introduites dans les mots de la requête, et s'assurer que la pertinence
d'un mot sera bien prise en compte sous sa forme canonique.
Le lemmatiseur : il permet de réduire les mots recherchés à
leur lemme et ainsi d'étendre leur portée de recherche.
L'anti dictionnaire : utilisé pour supprimer à la fois dans
l'index et dans les requêtes tous les mots "vides" (tels que
"de", "le", "la") qui sont non discriminants et
perturbent le score de recherche en introduisant du bruit.
Optimisation pour les moteurs de recherche [modifier]
Afin d'optimiser les moteurs de recherche, les webmestres
insérent des métaéléments (métatags) dans les pages web, dans l'en-tête HTML
(head). Ces informations permettent d'optimiser les recherches d'information
sur les sites web.
Article détaillé : Optimisation pour les moteurs de recherche.
Financement
Les sites dont la recherche est le principal service se
financent par la vente de technologie et de publicité.
Le financement par la publicité consiste à présenter des publicités correspondant aux mots recherchés par le visiteur. L'annonceur achète des mots-clés : par exemple une agence de voyage peut acheter des mots-clés comme « vacances », « hôtel » et « plage » ou « Cannes », « Antibes » et « Nice » si elle est spécialisée dans cette région. Cet achat permet d'obtenir un référencement dit "référencement payant" à distinguer du référencement dit "référencement naturel".
Le moteur de recherche peut afficher la publicité de deux
manières : en encart séparé ou en l'intégrant aux résultats de la recherche.
Pour le visiteur, l'encart séparé se présente comme une publicité classique.
L'intégration aux résultats se fait en revanche au détriment de la pertinence
des résultats et peut avoir des retombées négatives sur la qualité perçue du
moteur. De ce fait, tous les moteurs ne vendent pas de placement dans les
résultats.
Les moteurs de recherche constituent un enjeu économique. La
valeur boursière de Google, principal moteur de recherche, est de 165 milliards
d'euros en janvier 2008.
Techniques de détournement
L'importance des enjeux économiques a généré des techniques
de détournement malhonnêtes des moteurs de recherche pour obtenir des
référencements "naturels", le spamdexing.
Les techniques les plus pratiquées de spamdexing sont :
- Le cloaking, qui est une technique permettant de fournir une page différente aux moteurs de recherche de celle visible par un internaute.
- Les sites miroirs, qui sont des copies exactes d'un site
internet mais sous une autre adresse.
- Le "zurnisme", qui est la création d'un néologisme pour obtenir une exclusivité de référencement.
Les techniques de spamdexing sont pourchassées par les
éditeurs de moteurs de recherches, qui constituent des "blacklists"
provisoires ou définitives.
On distingue le spamdexing, détournement malhonnête, du SEO, Search Engine Optimisation. Les techniques de SEO sont commercialisées par des sociétés spécialisées.
Vente de technologie
Les grandes organisations (entreprises, administrations)
disposent généralement de très nombreuses ressources informatiques dans un
vaste intranet. Leurs ressources n'étant pas accessibles depuis Internet, elles
ne sont pas couvertes par les moteurs de recherche du web. Elles doivent donc
installer leur propre moteur si elles veulent mener des recherches dans leurs
ressources. Elles constituent donc un marché pour les développeurs de moteurs
de recherche.
Il arrive également que des sites web publics utilisent les
services d'un moteur de recherche pour étoffer leur offre. On parle alors de
SiteSearch. Ces logiciels permettent la recherche de contenus dans un ou
plusieurs groupes de sites. Ces technologies sont particulièrement exploitées
sur les sites de contenus et les sites de vente en ligne. La particularité de
ces outils est souvent la complexité de mise en œuvre et les ressources
techniques nécessaires disponibles.
Il arrive aussi que les grands portails exploitent la technologie des moteurs de recherche. Ainsi Yahoo!, spécialiste de l'annuaire web, a utilisé pendant quelques années la technologie de Google pour la recherche, jusqu'à ce qu'elle lance son propre moteur de recherche Yahoo Search Technology en 2004, dont les fondations proviennent de Altavista, Inktomi et Overture, sociétés fondatrices des moteurs de recherche et rachetées par Yahoo!.
Évolution vers le web sémantique
De plus en plus de producteurs de contenu, à la suite des
recommandations du W3C sur le Web sémantique, indexent leurs bases avec des
métadonnées ou des taxinomies (ontologies), en vue de permettre aux moteurs de
recherche de s'adapter aux analyses sémantiques.
Il convient de préciser que ces formes de recherches et d'analyses de corpus d'informations par voie informatique ne sont encore que des potentialités. De nombreux algorithmes ou méthodes de travail devront être mis au point avant de pouvoir créer un système de recherche d'information véritablement sémantique.
En effet, par comparaison avec des recherches plein texte,
de véritables recherches réalisées sur le web sémantique devraient être
beaucoup plus conviviales pour l'utilisateur: contrairement à un moteur
interrogé en mode similarité (requête par mot clé appelant la fourniture de
documents pertinents) un système sémantique n'impose pas à l'utilisateur de
fournir les éléments de la réponses sous forme de mots clés.
L'utilisateur d'un système sémantique doit pouvoir
directement poser sa question en langue naturelle.
Un véritable moteur de recherche sémantique ne fournir pas
de liste de pages répondant à une question mais la réponse précise.
Il n'existe pas encore à proprement parler de moteur de recherche sémantique. Mettre au point un véritable moteur de recherche capable de comprendre et de fournir du sens et capable de comprendre une question en langue naturelle ou d'adapter une réponse en fonction d'un ensemble d'information) est encore difficile. Quelques tentatives existent néanmoins pour chercher à répondre par des formes intermédiaires à cette problématique du sens dans la recherche d'information:
Powerset de Microsoft 1, qui répond aux questions en langue
naturelle
NLGbAse 2, qui permet d'interroger une ontologie extraite
depuis Wikipedia
Le projet de recherche Edelweiss 3, de l'INRIA qui développe
des outils exploitant les triplets RDF.
KartOO de la société Kartoo qui affiche des graphes
sémantiques dans le cadre de ses cartes de recherche
Sinequa CS de Sinequa qui fût l'un des premiers moteurs de
réponses implémenté en situation réelle, sur le site institutionnel de Gaz de
France.
Principaux moteurs de recherche
Selon une étude du cabinet Comscore réalisée en août 20074:
Google, (environ 60% des 61 milliards de recherches sur internet)
Yahoo, (8,5 milliards de recherches, soit 14% du total)
Baidu, "le Google chinois" qui monte en puissance
(3,3 milliards de requêtes, soit 5,4% du total),
Bing, remplaçant de Live Search, (Microsoft) (2,1 milliards
de recherches, 3,4%)
Article détaillé : Liste des moteurs de recherche.
Méta-moteurs
Les métamoteurs sont des outils de recherche qui interrogent non leur propre base de données, mais celles de plusieurs moteurs de recherche simultanément et affichent à l'internaute une synthèse pertinente. Exemple : Ixquick.
Multi-moteurs
On désigne par Multi-moteurs (ou plus rarement, "super
moteur"5) une page web proposant un ou plusieurs formulaires permettant
d'interroger plusieurs moteurs.
Le choix d'un des moteurs peut se faire par bouton, bouton
radio, onglet, liste déroulante ou autre.
Les premières pages de ce type recopiaient le code des
formulaires de plusieurs moteurs. Avec l'apparition du Javascript il est devenu
possible de n'avoir plus qu'un seul formulaire. On peut citer par exemple
Creative Commons Search, A9.com, HooSeek, Alpha de Yahoo!, Hotbot de Lycos, le
module recherche de Netvibes ou Meta (qui permet d'interroger plus de 140
moteurs). Voir la catégorie correspondante de l'annuaire DMOZ (en anglais) pour
d'autres exemples.
Moteur de recherche d'entreprise
L'explosion du nombre de contenus de formats divers
(données, informations non structurées, images, vidéos...) disponibles dans les
entreprises les poussent à s'équiper de moteur de recherche en interne.
Selon une étude menée par MARKESS International, 49% des
organisations ont déjà recours à un moteur de recherche d'entreprise, et 18%
envisagent son utilisation d'ici à 2010. Ces moteurs de recherches sont en
majeure partie intégrés aux postes de travail ou aux outils de gestion
électronique de documents, mais ils sont dans un nombre grandissant
d'entreprises capables de couvrir à la fois les contenus internes et externes
de l'entreprise, ou encore intégrés aux outils de gestion de contenu ou aux
solutions décisionnelles.
Parmi quelques acteurs proposant des moteurs de recherche d'entreprise figurent Google, Exalead, Sinequa...
.jpg)