Feature #1964

GWT: X.X., TXM portals welcome page visibility for crawlers

Added by Alexey Lavrentev over 2 years ago.

Status:New Start date:12/13/2016
Priority:Normal Due date:
Assignee:- % Done:

0%

Category:- Spent time: -
Target version:Portal 0.7

Description

Email by Sege Heiden

FR FR FR
Quand j'ai ajouté le lien externe BFM dans la page ancien français de wikipedia,
la page d'accueil a été enregistrée par un robot qui a vu ça :
http://archive.wikiwix.com/cache/?url=http%3A%2F%2Ftxm.bfm-corpus.org%2F
Vous pouvez le constater vous-même en cliquant sur le lien '[archive]' qui a été ajouté.

Je n'y avais pas trop pensé, mais des crawlers peuvent tout à fait s'intéresser
aux pages d'accueil de nos portails et cela sans Javascript. Je propose donc de
prévoir le coup proprement. Ça pourrait être :
  • prévoir une page HTML statique de substitution pour tous les accueils de portails,
    qui peut contenir des informations HTML ou par micro-formats informant les crawler et autres robots wikipedia
  • faire en sorte que le logiciel serve cette page si l'accès se fait sans Javascript ou si on reconnait un robot (je ne sais pas comment on fait)

Also available in: Atom PDF