Lemmatisation d'un corpus

La lemmatisation des textes du corpus va dépendre des ressources disponibles dans Hypermachiavel. A chaque langue du corpus (avec la contrainte qu'un texte n'est représenté que par une langue), correspond un lemmatiseur. Celui-ci est représentée par un dictionnaire des formes de la langue (Dictionary_it.xml) et des règles (écrites pour l'instant par défaut dans le code de l'application).

Il n'est pas possible de lemmatiser à l'extérieur de l'outil, et d'importer un corpus (comme le fait l'application TXM par exemple) ni d'instruire d'autres règles que celles décrites dans l'outil.

Toutefois, il sera possible prochainement de charger ces ressources dictionnaire indépendamment du corpus.