Statistics
| Revision:

root / tmp / org.txm.core / bin / org / txm / importer / doc / package.html @ 54

History | View | Annotate | Download (2.9 kB)

1
<html>
2
<head>
3
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
4
<title>IMPORT WORD-ODT</title>
5
</head>
6
<body>
7
<h3>IMPORT WORD-ODT </h3>
8

    
9
<h4>Processus :</h4> 
10
Pour l'instant, l'import WORD-ODT repose grandement sur l'import XML/w
11
<ul>
12
 <li>transformation en ODT de tous les documents : doc et docx</li>
13
 <li>transformation en TEI avec XSL de Ratz</li>
14
 <li>retire &lt;term> et &lt;teiHeader> (de toute façon vide)</li>
15
 <li>import XML/w</li>
16
</ul>
17

    
18
<h4>Sauts de pages</h4>
19
 Les pages sont paginées en fonction des soft-page-break d'ODT<br/>
20
 repérage des &lt;xsl:template match="text:soft-page-break"><br/>
21

    
22
<h4>Images</h4>
23
 Le chemin des images de la source sont conservés jusqu'en l'édition dans l'attribut "url" des balises "graphic".<br/>
24
 Il faut placer le dossier "Pictures" à coté des pages d'édition.<br/>
25
 Il n'y a aucune différence dans le codage d'image linkée ou pas.<br/>
26
 On peut différentier si une image est linké par son url : <br/>
27
<ul>
28
  <li>incorporée : "Pictures/xxx", Pictures est un dossier de l'archive ODT</li>
29
  <li>linkée : "../xxx"</li>
30
  <li>web : "http://" "ftp://" ...</li>
31
</ul>
32

    
33
<h4>Tokenisation</h4>
34
 Pour cet import, j'ai branché le Tokenizer paramétrable en variables et en tests.<br/>
35
 Les mots sont typés à l'import grâce aux paramétrages : protocole, tag, path, number<br/>
36
 corrections de bugs de tokenisation du "SimpleXmlTokenizer"<br/>
37

    
38
<h3>MODIFS XSL RATZ</h3>
39
<h4>Paragraphes</h4>
40
 styles automatiques PN -> prend style parent<br/>
41
 erreur xsl avec certains odt<br/>
42
 récupération du style parent des styles automatiques<br/>
43

    
44
<h4>Sauts de page</h4>
45
 text:soft-page-break -> pb<br/>
46

    
47
<h4>gestion par défaut de certains [[[UNTRANSLATED...]]]</h4>
48
Affichage du content des éléments :<br/>
49
<ul>
50
 <li>text:editing-cycles</li>
51
 <li>text:page-count</li>
52
 <li>text:word-count</li>
53
 <li>text:image-count</li>
54
 <li>text:table-count</li>
55
 <li>text:modification-date</li>
56
 <li>text:modification-time</li>
57
 <li>text:sequence-ref</li>
58
</ul>
59
<h3>A FAIRE</h3>
60

    
61
<h4>Images</h4>
62
 Automatiser la déplacement des images lors de l'import pour que les url pointent bien les fichiers.<br/>
63
 xxxx-files -> $TXMHOME/corpora/$CORPUS/HTML/default<br/>
64

    
65
<h4>Tokenisation</h4>
66
 PB: les mots sont dabord découpés par blanc (ex: pas bon pour <tag attr="" atrt2="">)<br/>
67

    
68
<h4>UNTRANSLATED</h4>
69
Faut-il marquer ces infos : <br/>
70
<ul>
71
 <li>text:editing-cycles</li>
72
 <li>text:page-count</li>
73
 <li>text:word-count</li>
74
 <li>text:image-count</li>
75
 <li>text:table-count</li>
76
 <li>text:modification-date</li>
77
 <li>text:modification-time</li>
78
 <li>text:sequence-ref</li>
79
</ul>
80
<h4>Sauts de page durs</h4>
81
 Ils sont codés dans les styles de paragraphe **automatiques**<br/>
82
 &lt;style:paragraph-properties fo:break-before="page"/><br/>
83

    
84
<h4>Typage des paragraphes</h4>
85
 but atteindre un typage comme celui fait par l'export xHTML d'oo<br/>
86
 lire styles.xml et créer une css<br/>
87
 Unifier les styles identiques ?<br/>
88
 Reclasser les @rend ?<br/>
89
</body>
90
</html>