22.06.2006

L’avenir est-il aux moteurs de recherche verticaux ?

Il y a le monde de la recherche en ligne dominé par les moteurs généralistes que sont Google (outrageusement) et Yahoo (dans une moindre mesure) et à l’intérieur de ce monde il y a un sous ensemble appelé : les moteurs de recherche spécialisés, dont les moteurs verticaux (Vertical Search Engines). On pourrait citer aussi les moteurs sociaux, collaboratifs ou communautaires.

Bref, le monde de la recherche en ligne est en effervescence à un point tel que Google annonce le lancement de Google co-op, Yahoo celui de son moteur social, Yoono est depuis peu intégré au navigateur Firefox en tant qu'extension, eurekster décline dorénavant son moteur communautaire en fonction de la taille de l'éditeur qui souhaite intégré le moteur à son site, etc...

La question est : y a t-il la place pour que co-existent ces moteurs spécialisés ou encore offrent-ils une véritable alternative aux deux poids lourds de la recherche en ligne ? C'est en tous cas ce que laisse entendre un article paru dans le Washington Post en octobre 2005 (OK ! c'a date mais l'information est toujours d'actualité). Où il est fait état de l'intérêt manifeste des annonceurs pour ce type de moteurs qui sont de par leur nature sensés remonter des résultats plus pertinents que les moteurs généralistes.

Rappelons que dans le modèle économique qui prévaut pour les moteurs de recherche (Google au premier chef), le client n'est pas le net chercheur, mais l'annonceur qui achète des liens sponsorisés. Il n'est pas difficile d'imaginer l'attrait de ces moteurs verticaux dont l'index se limite à un secteur d'activité ou un thème et qui permettent de la sorte de mener une stratégie de recherche pointue (cela tombe bien, les requêtes formulées par les internautes sont de plus en plus complexes) sur un index limité et dont les liens auront été en amont validés par l'éditeur du moteur.

On touche là l'éternelle question de savoir si la quantité ne nuit pas à la qualité ? Les développeurs de solutions de moteurs verticaux mettent en avant les avantages qui devraient théoriquement faire mouche auprès d'une population de professionnels qui estiment consacrés trop de temps à la recherche d'information et pas assez au traitement et à la prise de décision : index limité en quantité, constitué sur la base de sites identifiés qui rentrent dans une ligne éditoriale définie selon un thème précis, des liens validés et mis à jour régulièrement, la notoriété de l'éditeur qui propose le moteur.

Avec le développement des moteurs verticaux et leur logique éditoriale, et au-delà les moteurs de type "communautaire" (voir le billet sur les swicki) on assiste à un changement de paradigme qui se résume ainsi : avant il y avait les machines et les robots, aujourd'hui il y a les machines, les robots et les hommes.

Je vous recommande vivement la lecture de cet article paru le 09/06 dans Lexpansion.com et qui propose l'avis d'un Research VP du Gartner Group pour qui il doit y avoir complémentarité entre une recherche algorithmique (qui ne tient pas compte du contexte) et une intervention humaine.

Un autre article paru dans le JDN (24/05/06) : "Le marché va se diriger vers les moteurs de recherche verticaux"

Pour compléter, consulter le billet suivant sur les coûts cachés de la recherche d'information en milieu professionnel.

14.06.2006

Google Co-op

medium_google_coop.gifInutile d'être sorti major d'une promotion d'une école de management pour comprendre que ce qui se cache derrière le dernier né des projets de la firme de Mountain View est en fait un moteur inscrit dans une logique de coopération.

Nom de code : Google Co-op Co-op pour coopération, c'est écrit une ligne au-dessus

Le constat initial : les moteurs de recherche réputés "généralistes" occupent l'espace numérique. On serait tenté de dire sans partage (2 éléments d'appréciation permettent pour corroborer cette idée : 1/ l'accès aux pages d'un site internet se fait dans un cas sur trois par l'intermédiaire d'un moteur de recherche 2/ Google en particulier avec plus de 80 % de part d'audience généré sur la France).

Donc, d'un côté un moyen privilégié d'accéder à l'information en ligne par l'intermédiaire des moteurs de recherche et de l'autre une insatisfaction croissante (pour ne pas dire frustration) des internautes quant à l'usage de ces moteurs. Il faut dire que pour reprendre l'adage répandu selon lequel "trop d'information, tue l'information", on a vu jusqu'à un passé récent les principaux moteurs surenchérir sur la taille de leur index. A vouloir jouer les gros bras sur le nombre de pages internet balayées par ces moteurs, on en arrivait à se demander si la croissance régulière de la taille de l'index avait encore un sens, d'autant que des études démontrent aujourd'hui que les internautes (dans une très large proportion, voir le billet "Chercher, c'est trouver !") ne dépassent pas la première page de remontée de résultats des moteurs.

Le principe de Google Co-op :

On est dans un système communautaire dans lequel les membres (ce qui nécessite une inscription) proposent du contenu, des liens, associent des sites à des labels, ou catégories pré-définis. Bref, un appel à la contribution des utilisateurs du moteur pour en améliorer l'efficacité. Mais répétons-le, tout ceci se passe sur la base de la déclaration : un éditeur de site n'apparaîtra dans les pages de résultats que si il a au préalable enregistré les données de son site. On est, au final, assez proche de ce qui se passe dans le domaine du Web 2.0 (tag, système de notation par les internautes, partage, suggestion de liens apparentés). Google propose déjà dans le cadre du projet "Google Health", ce système de remontée de résultats "certifiés".

Assite t-on à une stratégie de verticalisation du moteur Google ?

Certains ("Google co-op is a vertical search killer") y voient déjà une stratégie défensive de Google pour contrer les nouvelles tendances qui émergent notamment chez les éditeurs de presse et autres média qui développent des moteurs de recherche verticaux susceptibles un jour de venir jouer sur le terrain de jeux de Google et donc de venir détourner une partie du marché des ressources publicitaires. CQFD

En savoir plus sur Google Co-op

Une explication détaillée de WebRankInfo

Pour rappel : le billet sur les Swickis

un exemple de moteur vertical : le moteur de recherche Web entreprise du site oseo.fr

06.06.2006

Chercher, c'est trouver !

C’était le mois dernier : SearchEngineWatch nous révélait la parution de deux études parues simultanément sur l’analyse des comportements des internautes lorsqu’ils effectuent une recherche sur les moteurs.

La première étude est co-réalisée par Jupiter Research et iProspect. Elle propose une analyse des tendances observées sur 3 années (2002 – 04 et 06). Intéressant de constater l’évolution des comportements et des attentes sur une période donnée. Et là l’étude tend à démontrer que le niveau d’exigence des personnes qui cherchent augmente en même temps que leur aptitudes à développer des stratégies de recherche plus ou moins complexes.

Résultats :

  • 62 % des utilisateurs de moteurs de recherche cliquent sur un résultat remonté sur la première page de retour ; 19 % de plus vont jusqu’à la seconde page de retours et 9 % de plus sur la troisième. Au final, 9 de ces utilisateurs sur 10 ont cliqué sur un résultat apparu dans les 3 premières pages de retour que remonte le moteur. En tendance (sur la période considéré), les utilisateurs tendent de plus en plus à limiter leur recherche aux 2, voire 3 premières pages
  • après une recherche jugée infructueuse, 41 % des utilisateurs révisent leur stratégie de recherche (le ou les termes de la requête), voire change de moteur lorsqu’ils ne trouvent pas de résultats satisfaisant dès la première page de retours ; 27 % font de même à la seconde page de retours et 20 % supplémentaires pour la 3ème. Au final, ils auront été 88 % d’utilisateurs à avoir modifié la recherche initiale pour ne pas avoir trouvé de réponse satisfaisante dans les 3 premières pages de retours. En tendance, les utilisateurs sont de plus en plus nombreux à modifier leur stratégie de recherche si les résultats des moteurs ne sont pas jugés satisfaisants dès les premières pages
  • pour poursuivre dans le registre de la recherche infructueuse, 82 % des utilisateurs optent pour une modification des termes de la requête initiale ; quand 13 % changent de moteurs. En tendance, il semble que les utilisateurs demeurent de plus en plus fidèles au moteur initialement utilisés
NB. l’enquête a été réalisée en janvier 2006 sur un panel d’internautes US

 

La seconde étude a été menée par Harvest Digital en partenariat avec Metro Research et s’intéresse plus particulièrement aux utilisateurs «expérimentés» de l’internet (au Royaume-Uni) dans leur stratégie de recherche d’informations sur les moteurs de recherche (est considéré par l’étude comme «expérimenté», l’internaute qui navigue sur le net depuis au moins 3 ans et y consacre au minimum 10 heures hebdomadaires)

Résultats :

  • la moitié de ces utilisateurs avisés passent au moins 3 heures par semaine a effectuer des recherches en ligne et ils sont 69 % à déclarer trouver réponse
  • 94 % des répondants déclarent utiliser … Google (que reste t-il aux autres ? la réponse est en partie dans la rubrique La vie en Google de ce site. Je peux cependant vous dire que selon l’étude les 3 suivants Yahoo, Ask Jeeves et MSN tournent à environ 40 % de déclarants) …
  • … mais (parce que leur avenir n’est pas aussi bouché qu’il n’y paraît) l’espoir demeure. Pour preuve, seulement 24 % des répondants déclarent n’utiliser qu’un seul moteur. 30 % en utilisent 2 ; 26 % utilisent 3 moteurs ; il y en a même 9 % qui utilisent plus de 4 moteurs
  • dans le même temps les répondants reconnaissent que si les résultats ne sont pas à la hauteur, c’est que souvent les termes de la requête sont inadéquates ou que la requête même est jugée trop spécifique et que l’information n’est peut être pas disponible dans les moteurs. La présence de liens sponsorisés est avancée dans un cas sur quatre comme cause de recherche infructueuse
  • 5 % des répondants utilisent 1 mot seul dans la requête ; 27 % d’entre eux utilisent 2 mots ; 40 % 3 mots
  • 43 % cliquent sur un résultat de la première page
  • 32 % cliquent sur un résultat parce que la description qui remonte du moteur est en adéquation avec leur attente
  • la moitié des répondants estime devoir améliorer leur technique de recherche


Conclusion : mieux vaut apparaître dans le haut des résultats ou tout du moins sur les premières pages. Au-delà les résultats deviennent quasi invisibles pour les utilisateurs des moteurs de recherche. CQFD (mais qui en doutait encore ?)

iProspect Search Engine User Behavior Study (Avril 2006)

attitude to search amongst experienced internet users (Avril 2006)

Pour compléter ce billet, je vous invite à consulter le billet que j'ai réalisé il y a peu sur une étude comparative sur 6 moteurs

medium_google_people.2.jpg

 

09.05.2006

un nouveau moteur pour ce site

Cela fait pas mal de temps qu'en navigant sur divers sites et weblogs qui gravitent autour de mes centres d'intérêt (TechCrunch et Outils Froids pour ne citer que mes favoris) j'utilise - sans y prêter attention (c'est une erreur que je vais réparer au plus vite) - le moteur que me proposent ces sites : il s'agit en l'occurence d'un Swicki. Pour avoir une idée de ce que propose cette nouvelle génération de moteurs de recherche qui s'enrichissent avec les pratiques de la communauté, je vous invite à lire le billet paru sur Outils Froids fin novembre dernier.

Pour revenir à la notion de moteur communautaire ou collaboratif, je vous propose le raccourci suivant : c'est comme reprendre l'équation "plus on est de fous, plus on rit" ; appliqué au domaine de la recherche en ligne, cela donne "la pertinence des résultats fournis par le moteur est proportionnelle à la croissance de la communauté et donc au développement des usages de l'outil".

J'ai voulu l'essayer et comme le disent les marketeurs : l'essayer c'est l'adopter !

Côté fonctionnalités, je vous renvoie au billet d'Outils Froids. Du point de vue du module d'administration de l'outil, cela s'avère particulièrement intéressant pour la publication : l'interface de gestion est extrêment simple et conviviale et côté module d'analyse, c'est franchement le paradis : je vais enfin tout savoir des requêtes formulées par les lecteurs de ce site.

Autre élément bluffant (je suis en train de devenir un Swicki addict !), c'est au niveau de la page de remontée des résultats. La fonctionnalité qui permet de comparer sur la même page 2 colonnes de résultats (l'une pour swicki, l'autre pour des "moteurs traditionnels") est intéressante. Pour ceux qui estiment (il y en a beaucoup notamment dans le contexte de l'entreprise) que les moteurs traditionnels perdent en pertinence et génèrent trop de bruit (ou plus simplement dit que la quantité nuit à la qualité des résultats), la comparaison avec Swicki est déroutante. Jugez plutôt, j'ai mené une recherche en parallèle sur le Swicki et Google, puis Yahoo, puis MSN et enfin Ask.com pour une requête sur un produit (testé dans le cadre de ce site). Les résultats sont :

  • 168 pour le Swicki
  • environ 41 800 pour Yahoo
  • 4 860 pour Ask.com
  • environ 92 900 pour Google !


Je me risque à qualifier ce type d'outil de moteur communautaire et en devine assez bien ses domaines d'application dans un environnement professionnel en matière de partage des connaissances et de pertinence accrue des résultats remontés. Là où des portails sectoriels ou thématiques et autres vertical seach engines imposent une ligne éditoriale voulue et définie par l'éditeur de l'outil (donc forcément partiale), ce type d'application bénéficie des pratiques qu'en fait la communauté des utilisateurs. En ce sens, le Swicki s'inscrit dans une tendance web 2.0 dans laquelle le feedback (en temps réel) permet à l'éditeur et aux utilisateurs d'enrichir le moteur et donc sa pertinence.

Qui a parlé d'intelligence collective ?

Pour compléter : un billet paru sur Elanceur

le site Eurekster qui propose le Swicki

A essayer vite ...

... sur ce weblog, bien sûr ! (c'est dans la partie droite : Rechercher dans ce blog et d'autres)

01.03.2006

Google et la recherche d'information presse

Aujourd'hui, c'est de notoriété (cf le billet daté du 16.01.2006 "Google et l'information professionnelle") : les entreprises utilisent de plus en plus les moteurs de recherche - et Google en particulier - pour repérer des contenus presse.

On peut penser que dans ce contexte les acteurs classiques de "l'information professionnelle" ne resteront pas sans réagir. D'ailleurs, la réaction s'organise déjà :

  1. d'un point de vue légal, du côté des éditeurs qui intentent des actions en justice à l'égard du moteur de recherche au motif que ce dernier permet à tout internaute d'accéder gratuitement à un contenu commercialisé par ailleurs par ces mêmes éditeurs et leurs intermédiaires
  2. d'un point de vue marketing, avec le développement de plates-formes d'agrégation de fils d'information, de dépêches et plus largement de contenus presse, voire de rumeurs.

Première élément d'appréciation : jusqu'à récemment l'information produite par les éditeurs était diffusée sur le marché par l'intermédiaire de services d'agrégation. Les principaux étant proposés par les sociétés Lexis Nexis, Thomson Business Intelligence et Factiva.

Arrêtons nous quelques instants sur cette dernière (filiale de Reuters et Dow Jones) dont le positionnement est on ne peut plus clair : réorienter les recherches en environnement professionnel effectuées par les "iWorkers" vers des solutions professionnelles qui garantiront un accès à une information non accessible depuis des sites internet gratuits. Dans ce contexte, Factiva développe via un livre blanc ("The Hidden Costs of Information Work" - avril 2005) un argumentaire déjà servi par d'autres acteurs de l'information professionnelle (c'est de bonne guerre) sur les coûts cachés en matière de recherche et de gestion de l'information suivant le principe que mieux vaut souscrire à un service d'agrégation qui remonte des informations validées que de rechercher sur le "web ouvert" (nonobstant gratuit) des informations que l'on ne trouve pas et qui engendrent des coûts (temps homme) non négligeables.

La solution proposée par l'agrégateur a pour dénomination : Factiva Search 2.0. L'interface de recherche est proche de celle que propose les principaux moteurs de recherche et la partie résultat est agrémentée de filtres qui permettent d'organiser plus efficacement l'information remontée par catégorisation de celles-ci, le tout dans un contexte de navigation simple. Cette interface balaie un fonds constitué de près de 9.000 sources de presse et plus de 3.500 sites d'actualité en ligne. Des alertes sont paramétrables par ailleurs.

Précision : ce type de service - qui à l'origine s'adresse à des veilleurs et documentalistes en entreprise - est proposé aujourd'hui dans un contexte d'ouverture de la cible à des non-professionnels de l'information avec l'idée que ces personnes retrouveront une interface déjà connue (celle des principaux moteurs de recherche). Attention cependant le droit d'accès indique clairement que ce service s'adresse aux entreprises (compter plus de 2.800 euros par mois pour 15 utilisateurs). A ce prix là, pas sûr que l'argument des coûts cachés en "open web" soit suffisant pour recruter de nouveaux clients. La plate-forme est proposée depuis janvier en version bêta. A suivre ...

Deuxième élément pour étayer la réflexion : on peut penser que la réaction ne relève pas que du seul fait des intermédiaires et diffuseurs d'information professionnelle, mais aussi des éditeurs eux-mêmes. Force est de constater que ces derniers - les gros éditeurs tout du moins qui fondent leur notoriété sur des titres de presse reconnus dans leur domaine - sont engagés dans une tendance qui consiste à reprendre la maîtrise de la relation directe avec le client final (l'entreprise).

Assiste t-on sur le marché de l'information professionnelle à un match tripartite avec d'un côté les moteurs de recherche, de l'autre les éditeurs de contenus et les diffuseurs ou agrégateurs qui eux-mêmes jouent leur match ?

On peut aussi se demander si au final, Google n'est pas l'arbitre - pas franchement neutre - qui organise la confrontation et le marché au demeurant ?

Pour télécharger le livre blanc "The Hidden Costs of Information Work"

15.02.2006

Google et les centres de données

Avez vous déjà remarqué ce phénomène étrange :

Depuis votre poste de travail, vous lancez une requête sur Google et vous obtenez un nombre "approximatif" total de réponses que remonte le moteur. Ce nombre est bien sur variable en fonction des termes de la requête. Renouvelez la recherche (requête à l'identique) depuis le même poste de travail à quelques jours voire semaines d'intervalle et (surprise !) vous obtenez un nombre total de réponses qui diffère de façon significative de la première recherche.

L'explication de ce phénomène nous est donnée par la revue Bases Publications éditée par Netsources dans son numéro de Novembre - Décembre 2005.

On peut penser que le nombre de réponses évolue avec l'augmentation de la taille de l'index Google par effet mécanique. Pas seulement.

En fait, l'article avance l'explication suivante :

"Lorsque l’internaute interroge Google, le moteur dirige automatiquement la question vers l’un des centres de données (data centers), choisi comme étant le plus rapide en fonction de l’encombrement, de la localisation géographique, etc. Mais les index des centres ne sont pas toujours identiques, ce qui explique qu’une même question sur Google peut obtenir, le même jour et depuis un même poste, des résultats variables selon qu’elle est posée à un centre ou à un autre."

On entre donc dans le coeur du système Google dont l'index est segmenté en morceaux répartis sur des milliers d'ordinateurs eux-mêmes hébergés dans plusieurs centres de données localisés aujourd'hui aux USA et en Europe. Ces centres possèdent cependant une copie de la totalité de l'index.

D'après l'article, le centre de données qui se distingue des autres (tant du point de vue quantitatif que qualitatif des remontées fournies) serait Bigdaddy.

Suggestion faite dans le cadre de l'article : lancer une requête directement sur l'adresse IP de Bigdaddy (http://66.249.93.104/)

Lire l'article

16.01.2006

Google et l'information professionnelle

On connaît la position quasi-hégémonique qu'occupe aujourd'hui Google dans l'environnement des moteurs de recherche sur Internet (sur le blog d'Abondance, il est fait état d'une part de trafic de 82 % pour la France).

Qu'en est-il des usages de Google sur le segment de l'information professionnelle ? Poser la question telle que revient à effectuer un distinguo entre Google en tant qu'instrument de recherche généraliste point d'entrée sur le web pour une recherche d'information de premier niveau et des outils de veille réputés plus sophistiqués notamment dédiés à un environnement professionnel. Reformulée autrement, la question pourrait être la suivante : Google peut-il s'intégrer dans une logique de veille et d'intelligence économique (IE) au sein des entreprises et organisations ?

Difficile de répondre de façon tranchée. Les avis divergent entre détracteurs et afficionados du moteur, et dépassent la simple opposition entre professionnels de la documentation et de la veille et utilisateurs courants.

Dans les faits, on observe : la volonté manifeste de Google de se positionner sur le segment de la recherche d'information en environnement professionnel avec ses déclinaisons Google Mini et Google Search Appliance. Peut-on dès lors parler de suites logiciel au même titre que les outils de veille proposés aujourd'hui sur ce marché par quelques éditeurs (dont certains sont regroupés au sein d'organismes professionnels tel le GFII).

Cette observation ne fait pas pour autant (tout du moins sur le papier) de Google un acteur de référence sur le marché de l'IE. En effet, nombre de professionnels de l'information opposeront à cette affirmation, le fait que Google ne balaye que l'ensemble des données rendues publiques par leurs producteurs versus le "web invisible" (celui des bases de données accessibles depuis des espaces privatifs). Autre élément différenciant Google des outils de veille : le fait que le moteur remonte une donnée brute de tout traitement et analyse ce qui pose le problème de la validation de la source émettrice.

Cependant, force est de constater - dixit une contribution d'A. Garnier dans le n° 218 de BASES (juillet-Août 2005) - que Google est devenu "le Modèle" de référence sur ce segment de l'IE en ce sens que le moteur de recherche est l'élément structurant du marché de l'information. Ou encore (en référence au billet du 28.11.05) le market maker qui impose son modèle aux autres acteurs de l'information.

Dans une logique de prospective, on peut légitimement se demander (tout comme A. Garnier) quel espace laissera Google aux acteurs traditionnels du marché de l'information ? D'autant que les éléments de différenciation avancés par ces derniers vis à vis du moteur (soit la capacité des outils de veille à valoriser, traiter, synthétiser, partager, diffuser et archiver l'information dans un environnement professionnel) sont passablement mis à mal avec les outils de travail collaboratif proposés dans le cadre des applications web 2.0

Dans ce sens, n'est-il pas opportun de se demander si Google peut être à l'avenir l'élément structurant d'un système d'information autour duquel diverses briques applicatives vont se greffer au gré des besoins de l'utilisateur ?

Quoiqu'il en soit, Google - de par sa simplicité d'utilisation et la gratuité de son usage pour effectuer des requêtes - est l'outil "qui a su démocratiser la recherche d'information" (A. Garnier) et constitue sans aucun doute la rupture attendue en matière d'IE. A tel point que certains experts du marché de l'information ont développé un véritable phénomène de "Google addiction" et s'interrogent aujourd'hui sur l'optimisation de son utilisation dans une logique de veille (j'utilise personnellement Google Alert pour remonter un information de nature concurrentielle).

La question reste ouverte pour les acteurs du marché de l'information professionnelle : Google, menace ou opportunité ?

06.01.2006

Un nouveau moteur de recherche sémantique

Vu l'actualité des TIC de ces dernières semaines occupée par les thématiques liées à la recherche d'information (le projet Quaero, l'intermédiation dans la recherche avec Yahoo Answer, les diverses déclinaisons du moteur Google), on peut légitimement se demander si l'enjeu qui se dessine sur le web n'est pas le point d'entrée sur le Net depuis un moteur de recherche. Question que Google ne se pose plus depuis un certain temps avec son accueil page personnalisée.

Voici un moteur de recherche Hakia qui se distingue de la masse en ce sens qu'il s'attache au sens de la requête qui s'effectue dès lors en texte plein (ou langage naturel) et non plus sur des mots-clés ou enchaînement de mots-clés. Intérêt supplémentaire du système :

  • la requête apparaît surlignée dans le champs de réponse que remonte le moteur
  • le moteur renvoie des suggestions pour affiner la recherche

Quelques exemples de requêtes sont fournis par l'éditeur US de ce moteur. J'en ai testé quelques une :

A la question : comment trouver une aiguille dans une botte de foin ? Vous serez surpris par le nombre de personnes qui se posent la même question. Quant à savoir ce que signifie Google, mieux vaut poser la question en anglais pour obtenir réponse, mais peut-être est ce lié au fait qu'il n'y a pas de site en français suffisamment bien référencé qui apporte la réponse.

Sourde de l'info : l'excellent Outils Froids