Google a récemment mis à jour sa documentation Google Search Central pour indiquer qu’il indexe maintenant les fichiers .csv. Cela signifie qu’il y a une nouvelle manière de se faire crawler par Google, ou, si un éditeur ne souhaite pas que ses fichiers .csv soient crawlés, il devra peut-être mettre à jour son fichier robots.txt pour exclure ces fichiers.
Qu’est-ce que les Fichiers CSV ?
Les fichiers CSV (Comma-Separated Values) sont des fichiers texte qui enregistrent les données sous un format tabulaire pouvant être affiché sous forme de feuille de calcul. Ils contiennent des données en texte brut, ce qui signifie qu’ils ne contiennent pas d’éléments de style tels que des polices, des images ou des liens actifs. Ils sont utiles pour des choses comme télécharger une liste d’URL pour le crawling à des logiciels comme Screaming Frog, mais ils sont également utiles pour organiser des données dans un tableur.
L’Indexation des Fichiers CSV par Google
L’indexation des fichiers CSV par Google est une nouvelle fonctionnalité car une recherche “filetype” sur Google pour les fichiers CSV ne retourne actuellement pas de fichiers CSV. Par exemple, les recherches suivantes ne retournent actuellement pas de fichiers CSV :
- filetype:csv site:.gov
- filetype:csv site:.edu
- filetype:csv site:.com
Google a déjà indirectement utilisé des fichiers CSV dans l’apparence de recherche de jeux de données, mais apparemment seulement lorsqu’ils sont décrits avec des données structurées.
La documentation sur les données structurées de l’ancien développeur de Google indique que les fichiers CSV sont un standard acceptable pour apparaître dans les fonctionnalités de recherche de jeux de données.
L’utilisation de données tabulaires comme apparence de recherche remonte à 2018, lorsque Google a annoncé qu’ils montreraient ce type de données dans la recherche lorsque les données sont accompagnées de données structurées. Selon la documentation originale :
les jeux de données sont plus faciles à trouver lorsque vous fournissez des informations de support telles que leur nom, description, créateur et formats de distribution sous forme de données structurées…
Cela inclut une table ou un fichier CSV avec des données, une collection organisée de tables, un fichier dans un format propriétaire contenant des données, une collection de fichiers constituant un jeu de données significatif, un objet structuré avec des données dans un autre format que vous pourriez vouloir charger dans un outil spécial pour le traitement, des images capturant des données, des fichiers relatifs à l’apprentissage automatique, tels que des paramètres entraînés ou des définitions de structure de réseau de neurones, et tout ce qui ressemble à un jeu de données pour vous.
Google a mis à jour la documentation ci-dessus en 2022 et l’a redirigée vers la nouvelle documentation Search Central. La documentation mise à jour rend plus clair que Google s’appuie sur les données structurées pour utiliser les fichiers CSV dans leur apparence de recherche de jeux de données.
Mais cela signifie-t-il que Google va finalement crawler les fichiers CSV et les utiliser pour les apparences de recherche (en plus des données tabulaires notées dans les données structurées) ?
C’est ce que l’explication de la documentation actuelle explique aujourd’hui :
Les jeux de données sont plus faciles à trouver lorsque vous fournissez des informations de support telles que leur nom, description, créateur et formats de distribution sous forme de données structurées. L’approche de Google pour la découverte de jeux de données utilise schema.org et d’autres normes de métadonnées qui peuvent être ajoutées aux pages décrivant les jeux de données….
Cela inclut une table ou un fichier CSV avec des données.
Implications pour les Propriétaires de Sites Web et les Spécialistes du SEO
L’indexation des fichiers CSV par Google est-elle liée à une mise à jour récente ? La définition d’une mise à jour de l’algorithme central est lorsque Google apporte des changements “significatifs” et “larges” à leur algorithme central. Il se peut que ce soit une coïncidence que l’indexation des fichiers CSV et la mise à jour de l’algorithme central se soient produites pratiquement en même temps.
Mais il vaut la peine de considérer si Google a amélioré son moteur de crawling pour être capable d’indexer les fichiers CSV ou si cette capacité était déjà présente. Vous pouvez lire la liste mise à jour des types de fichiers indexables par Google ici.
Conclusion
L’indexation des fichiers CSV par Google est une nouvelle fonctionnalité qui pourrait avoir des implications pour les propriétaires de sites Web et les spécialistes du SEO. Il est important de surveiller cette mise à jour et de prendre les mesures nécessaires pour s’assurer que les fichiers CSV que vous souhaitez être indexés sont accessibles et que ceux que vous ne souhaitez pas être indexés sont bloqués par le fichier robots.txt.
Il est également important de noter que l’indexation des fichiers CSV par Google pourrait être liée à une mise à jour récente de l’algorithme central, bien que cela reste à confirmer.