Feature #1964

GWT: X.X., TXM portals welcome page visibility for crawlers

Ajouté par Alexey Lavrentev il y a environ 2 ans.

Statut:New Début:13/12/2016
Priorité:Normal Echéance:
Assigné à:- % réalisé:

0%

Catégorie:- Temps passé: -
Version cible:Portal 0.7

Description

Email by Sege Heiden

FR FR FR
Quand j'ai ajouté le lien externe BFM dans la page ancien français de wikipedia,
la page d'accueil a été enregistrée par un robot qui a vu ça :
http://archive.wikiwix.com/cache/?url=http%3A%2F%2Ftxm.bfm-corpus.org%2F
Vous pouvez le constater vous-même en cliquant sur le lien '[archive]' qui a été ajouté.

Je n'y avais pas trop pensé, mais des crawlers peuvent tout à fait s'intéresser
aux pages d'accueil de nos portails et cela sans Javascript. Je propose donc de
prévoir le coup proprement. Ça pourrait être :
  • prévoir une page HTML statique de substitution pour tous les accueils de portails,
    qui peut contenir des informations HTML ou par micro-formats informant les crawler et autres robots wikipedia
  • faire en sorte que le logiciel serve cette page si l'accès se fait sans Javascript ou si on reconnait un robot (je ne sais pas comment on fait)

Formats disponibles : Atom PDF