Système d'extraction et d’indexation automatique de pages WEB
Les publications ou autres sources d'information sont de plus en plus nombreuses sur Internet. Il est dès lors difficile d'accéder à la bonne information. Ce travail de diplôme concerne la création d'un outil permettant d'extraire le contenu de publications HTML via une transformation XSLT, afin d'indexer des publications dans un système de gestion de document. Ainsi, l'information est définie, centralisée et éventuellement annotée. L'outil est réalisé dans un environnement de servlets Java et le framework Cocoon d'Apache est utilisé pour les transformations XSLT.
Etudiant: Loïc Delacour
Année: 2005
Département: Comem+
Filière: Ingénierie des médias
Type de formation: Plein temps
Partenaire externe: M. Luc Patiny, EPFL
Enseignant responsable: Nicolas Chabloz
Téléchargement:
- Télécharger l'affiche