Google Panda est un nouveau filtre mis en place par Google début 2011, déjà déployé dans les pays anglophones, et qui sera étendu prochainement au reste du monde. Google a travaillé depuis des mois, voire des années pour mettre en place Google Panda, en utilisant ce qu’on appelle un « algorithme d’apprentissage ».
Cela correspond à avoir pratiqué des validations à la main de centaines de milliers de sites pour détecter s’ils étaient du contenu type « Ferme de contenu », puis à mettre en place une multitude de critères pour faire des calculs sur ces échantillons afin de s’assurer que les critères du filtre permettaient un minimum d’erreurs.
Suite à cela, Google a identifié une liste de critères pertinents pour déterminer que tel ou tel critère signifiait que le site visité était du spam afin d’en calculer un sorte de note pour Google Panda, avec des notes positives, ou négatives sur chaque aspect.
Le moteur de recherche détermine ensuite que tel ou tel site obtient une note moyenne trop faible pour « Google Panda », méritant donc que le site soit pénalisé dans son algorithme et donc sur son positionnement dans les résultats de recherche (SERP – Search Engine Results Page).
Voici une liste non exhaustive des critères utilisés par Google :
- Le taux de retour sur la page de recherche à partir de tel ou tel lien
- La durée de visite des pages
- Le trop fort taux de publicité
- Le type de landing pages (pages d’entrées des internautes)
- La pertinence d’une page avec le mot clef utilisé pour lui apporter de l’audience : certains forums ont poussé le référencement de certaines pages sur des mots clefs sans rapport avec le contenu réel de celles-ci
- La qualité du contenu de la page (la part des contenus rédigés rapidement ou à la va-vite progressait sensiblement aux USA, les sites jouant des techniques de référencement pour prendre de l’audience et faire du CA sans contenu de qualité)
- La page apporte-t-elle finalement la réponse à la question posée par l’internaute faisant la recherche : certains forums ont 90 % de discussions avec une réponse pertinente, quand d’autres concurrents trainent sous la barre des 40 % ; ces derniers étant pénalisés.
- La vitesse d’affichage de la page
- Présence de duplicate et contenus plagiés
- Site étant intermédiaire : regroupement de tests pour faire une revue de presse, comparateurs de prix… Semblent moins touchés les aggrégateurs de contenus dans l’emploi !
- Taux de crawl pour des pages sans intérêt : si Google passe 50 % de son temps de crawl sur des pages dont l’intérêt est nul en terme d’utilisateurs, il baissera la pertinence globale du site
- La présence de contenus dupliqués
- La présence de pages pour se référencer sur des termes quasiment identiques, en changeant uniquement quelques mots dans l’article ; voir la création de pages pour se référencer sur des requêtes avec fautes d’orthographes.
Pour d’autres critères, il n’a pas été déterminé de manière certaines qu’ils agissaient dans le filtre :
- Le taux de clics sur les liens de tel ou tel site dans Google : si un site attire 20 % de clics de moins qu’un autre, à position égale, il y a un « problème »
- L’âge moyen des pages : certains sites étaient positionnés principalement avec des pages datant de 2003 ou 2004 (d’ou le fait qu’on ait vu récemment apparaitre la date dans les algorithmes)
- Il y a certainement des dizaines d’autres critères servant pour Google Panda, dans une moindre mesure, dont beaucoup ne sont pas connus.
Il faut toutefois veiller à ce que, même si son site ne devrait pas être pénalisé par Google Panda (qui n’est pas encore sorti en France), à continuer à travailler ces critères de qualité en optimisant en parallèle son référencement, étant donné que Google optimise en permanence Google Panda et pourra faire de nouvelles versions plus strictes.