C’est souvent la même rengaine : Google pond des mises à jours de son algorithme et la Toile s’enflamme. La dernière en date : BERT. Que faut-il en penser ? Que du bien, foi de docteure en linguistique !
La mise à jour BERT touche le contenu et en particulier l’analyse du langage naturel pour une meilleure compréhension des requêtes des utilisateurs. C’est pourquoi nous tenons à vous présenter cette mise à jour, qui fait la part belle aux mots, aux vrais.
Requêtes et référencement naturel : reprenons les bases
Parce qu’on ne le répète jamais assez, disons-le, martelons-le : Google a un but principal, celui que les utilisateurs, gentils internautes, reviennent toujours plus nombreux sur le moteur de recherche pour poser des questions [et ensuite récupérer leurs données, leur vendre plein de trucs, on s’entend]. La base du système est donc la satisfaction de l’utilisateur.
Avant, les utilisateurs avaient l’habitude de questionner Google avec un ou deux mots-clés. Et je ne vous parle pas de l’époque des opérateurs booléens où l’on mettait « + » ou « ET » dans les requêtes. Aujourd’hui, les requêtes se complexifient. Elles sont de plus en plus longues, de plus en plus précises. Entre 16 et 20% des requêtes quotidiennes sont d’ailleurs inédites : elles n’ont jamais été faites avant et ne seront peut-être jamais reproduites.
À quoi cela est dû ? Tout d’abord, le nombre de sites web, et donc de réponses potentielles offertes par Google aux requêtes, est de plus en plus grand. Cela signifie qu’il va falloir, pour l’utilisateur, trier les résultats en cas de requête trop générique. Avec une requête plus spécifique, on est certain d’obtenir rapidement la réponse. D’autre part, la manière de faire les requêtes change. Notamment avec l’explosion de la recherche vocale, les requêtes sont de plus en plus longues, complexes. Là où on tapait « restaurant bordeaux » on demande « où manger pour pas trop cher dans bordeaux centre ce midi ». Et il y a autant de façon d’exprimer cette intention de recherche qu’il y a d’individus.
Afin d’améliorer toujours plus les résultats, Google met sans cesse à jour son algorithme. Parfois, cela touche l’analyse des sites web qu’il a en stock dans son index. Mais la dernière mise à jour en date touche l’analyse des requêtes complexes. Elle s’appelle BERT (et n’a rien à voir avec cette mode des prénoms anciens : Bert n’est pas Berthe).
BERT : ça marche comment ?
BERT, c’est le petit nom pour Bidirectional Encoder Representations from Transformers. Ça en jette, non ?
Langage naturel vs. algorithme
BERT s’appuie sur les recherches de mes anciens collègues, linguistes spécialisés en traitement automatique des langues, aujourd’hui embauchés par la firme – les chanceux ! Cette mise à jour améliore la compréhension du langage naturel, autrement dit : la façon dont nous nous exprimons, à l’écrit ou à l’oral, nous, simples humains.
Une des difficultés de la sémantique est cette part d’intuition que l’on a forcément sur le sens des mots : je saisis ce que le mot veut dire, j’appréhende ses nuances, mais je suis incapable de les formaliser. Or un algorithme, bien heureusement, n’a pas d’intuition. Il a besoin de données formelles à analyser.
L'analyse distributionnelle du sens
Parmi les tentatives de formaliser l’analyse du sens d’un mot, l’analyse distributionnelle a vu le jour dans le monde des linguistes. Le postulat est relativement simple et évident : on peut comprendre le sens d’un mot en analysant son contexte, c’est-à-dire les mots qui se trouvent autour. Donc, si un mot a plusieurs sens, prenons par exemple « vol », c’est son contexte qui va nous indiquer s’il s’agit du vol dans les airs ou du vol juridiquement répréhensible. Donc, a priori, le vol d’un oiseau est dans la première catégorie, et le vol d’un tableau dans la seconde, puisque le tableau est dépourvu d’ailes, condition nécessaire à un vol dans les airs. L’exemple est simple.
Pour la petite histoire (vous pouvez passer au paragraphe suivant si la linguistique vous ennuie), j’ai utilisé le principe de l’analyse distributionnelle dans ma thèse. Le sujet était la formation de mots dans la langue actuelle grâce à des constituants – des morceaux – d’origine classique : latins et grecs. Parmi ces mots, j’ai analysé les mots en -cide. Ces mots-là peuvent avoir plusieurs sens :
- Xcide : « meurtre de X » (X = une personne ou entité unique), par exemple homicide, féminicide
- Xcide : « meurtre à grande échelle de X » (X = un groupe de personnes), par exemple génocide
- Xcide : « produit servant à l’extermination de X » (X = un animal ou une plante nuisible), par exemple insecticide.
Prenons maintenant un mot que vous n’avez probablement jamais rencontré mais qui a été créé et utilisé : pigeonicide. Si j’emploie ce mot avec le verbe « commettre », j‘ai commis un pigeonicide, on est dans le premier cas : j’ai tué un unique pigeon, comme on commet un homicide. Si je l’utilise avec le verbe « perpétrer », j’ai perpétré un pigeonicide, on imagine très bien la tuerie à grande échelle, au même titre que dans « perpétrer un génocide ». Et enfin, avec le verbe « utiliser », j’utilise du pigeonicide, il s’agit là d’un produit servant à anéantir un nuisible, comme dans utiliser de l’insecticide. Le contexte nous a donc aidé à déterminer le sens d’un mot, même s’il nous est inconnu.
Voilà ce que s’apprête à faire Google, avec BERT.
BERT, concrètement
Donc c’est à ça que BERT s’attache : analyser le contexte des mots pour en comprendre le sens. Chaque mot pris individuellement dans une phrase peut avoir un sens différent de celui qu’il aura dans le contexte de cette phrase. Et lorsqu’un internaute fait une requête naturelle dans sa langue, comprenez qu’il fait une phrase et non une suite de mots-clés, Google va être plus à même de l’analyser et de lui proposer la réponse la plus adéquate.
Google nous donne quelques exemples pour appuyer ses explications. Par exemple, une requête comme
do estheticians stand a lot at work
pouvait donner lieu auparavant à une mauvaise interprétation : le moteur de recherche comprenait « stand-alone », soit « autonome » et non la condition physique requise dans le métier d’esthéticienne. Avec le déploiement de cette mise à jour, Google sera en mesure d’analyser plus justement ce type de requêtes.
Vous pouvez retrouver plus d’infos et d’exemples sur le blog de Google.
Déploiement de BERT
Pas de panique cependant ! Le déploiement de BERT n’est pour l’instant prévu qu’aux États-Unis. Il ne sera étendu que plus tard en France. Cependant, Google nous dit qu’il ne touchera que 10% des requêtes qui sont effectuées.
Ce chiffre risque d’augmenter cependant, quand on analyse le changement qui s’opère actuellement dans les requêtes des utilisateurs. En effet, la recherche vocale gagne du terrain et donne lieu à des requêtes toujours plus longues, et toujours plus naturelles !
Le contenu de qualité : toujours plus loin, toujours plus fort
Que faut-il retenir de cette mise à jour ? Pas grand chose sur quoi on va pouvoir agir, du point de vue du référenceur. En effet, il s’agit avant tout d’une meilleure analyse des requêtes des utilisateurs et non pas des contenus des sites web.
Cependant, on peut très bien imaginer que ces techniques pourront être appliquées ensuite pour une meilleure compréhension lors de l’indexation des pages web.
De plus, si les requêtes dites de longue traîne, c’est-à-dire les requêtes qui sont généralement plus longues mais surtout effectuées par peu de monde (les requêtes de niche), sont mieux identifiées, la qualité des contenus des sites web devra suivre le mouvement. Ainsi, même si ce n’est déjà plus le cas, le fait de bourrer des pages de mots-clés sera vraiment à éviter.
Et la part belle sera faite aux bons rédacteurs web, ceux qui sont capables de manier les mots et la langue, de façon à délivrer un langage clair. Ceux qui vont déployer un champ sémantique fourni afin de répondre plus à des intentions de recherche qu’à des requêtes types. Ceux qui sont chez Rédactographe, oserait-on dire !
Alors disons-le : OUI au contenu de qualité rédigé par des humains ! OUI à une meilleure maîtrise du langage dans la rédaction de contenu ! OUI aux rédacteurs web dont c’est le métier !
3 réponses à “Pourquoi BERT, nouvelle mise à jour de l’algorithme de Google, est une bonne chose”
Merci pour cet article très complet et intéressant !
Je me posais justement la question du tournant qu’allait prendre Google pour répondre aux nouveaux usages de requête vocale.
Avec Bert, de nouveaux champs s’ouvrent en tant que référenceur ou webmarketeur.
C’est sûr ! Encore qu’on ne sait pas bien, si ce n’est en prônant toujours plus la qualité, comment un référenceur peut changer ses actions suite à cette mise à jour !
Tout d’abord merci Marine pour cet article intéressant, complet et surtout encourageant pour les professionnels de la rédaction web ! ENFIN la qualité des contenus va être reconnue et prioritaire dans les critères de notre ami Google et il était temps que cela le devienne. Attendons des nouvelles de Bert pour son passage en France 😉