Re: [CPS-users-fr] Re: Pb lors de la réindexation des documents

Georges Racinet gracinet at nuxeo.com
Mer 18 Oct 17:11:51 CEST 2006


On Oct 18, 2006, at 5:04 PM, Yves Bastide wrote:

> Georges Racinet wrote:
>> On Oct 18, 2006, at 3:08 PM, Yves Bastide wrote:
> [...]
>>> * il nécessite une version récente de lxml (au moins 1.0, je pense)
>> Si je comprends bien c'est parce que lxml comprend bien le html  
>> pas bien formé ?
>
> Oui : il contient un HTMLParser depuis la version 1.0. ElementTree  
> n'en a pas.
>
> Par contre, mon word_to_text a besoin de lxml >= 1.1 (pour  
> iterwalk, qui itère sur l'arbre en construction, et permet  
> d'accéder à .text et .tail dans l'ordre)
>
>>> * il est faux :-) (supprimant les parties du document HTML sous  
>>> les balises inconnues, au lieu de supprimer les balises seules ;  
>>> il faut au minimum ajouter 'font' aux balises reconnues)
>> Bonjour, on se demandait justement si on l'incorporerait dans la  
>> (future mais proche) 3.4.3 :-)
>> Pour cela, il faudrait, bien sûr qu'il soit corrigé, s'il est  
>> incomplet et faire attention à la dépendance sur lxml:
>> par exemple, lxml 1.0.3 est actuellement dans la branche "testing"  
>> de Debian. Àma, ce serait bien de tester la présence de lxml et  
>> d'utiliser l'ancien système par défaut, je crois qu'il y a pas mal  
>> de gens qui se débarassent simplement de CPSBlog pour faire  
>> tourner leur CPS dans lxml (ceci date d'une époque où  
>> l'installation de lmxl était plus difficile).
>
> Ui, c'est d'ailleurs CPSBlog qui m'a fait penser à essayer lxml,  
> pas ElementTree, sur le serveur que Word -> HTML faisait tomber :)
>
> Je vais voir comment corriger mon scrubHTML : soit rajouter des «  
> tags autorisés » à VALID_TAGS, soit, si c'est possible, remplacer  
> les tags inconnus par des <span>...

Ok, on reste à l'écoute

>
> Dépendance sur lxml 1.0 : mon patch s'en occupe déjà

Parfait !

>
>>>
>>> 2b. j'attache aussi un word_to_text.py utilisant wvware : le  
>>> mettre dans PortalTransforms/transforms, modifier transforms/ 
>>> __init__.py pour qu'il l'appelle, et l'ajouter sous la ZMI
>> On peut avoir ça aussi dans le ticket ? une source unique c'est  
>> plus simple.
>
> Oui... Dès que j'aurai fait écrit test... Et lxml 1.1 n'est encore  
> ni dans Debian, ni dans Ubuntu...

Hmh pour le coup ce serait pour 3.4.4, sauf si ça teste la version de  
lxml et fait ce qu'il faut si c'est < 1.1

>
>> Merci pour les contributions en tout cas.
>
> Écrites contraint et forcé :)

Mais avec le sourire :-)
Quel est l'ordre de grandeur du gain au fait ?

---------
Georges Racinet,   Nuxeo SAS
Open Source Enterprise Content Management (ECM)
Web: http://www.nuxeo.com/ and http://www.nuxeo.org/ - Tel: +33 1 40  
33 79 87






This list archive provided by Nuxeo, the leaders of open source ECM. Check out the Nuxeo 5 open source, standards-based ECM project.