Système d'extraction et d’indexation automatique de pages WEB

Les publications ou autres sources d'information sont de plus en plus nombreuses sur Internet. Il est dès lors difficile d'accéder à la bonne information. Ce travail de diplôme concerne la création d'un outil permettant d'extraire le contenu de publications HTML via une transformation XSLT, afin d'indexer des publications dans un système de gestion de document. Ainsi, l'information est définie, centralisée et éventuellement annotée. L'outil est réalisé dans un environnement de servlets Java et le framework Cocoon d'Apache est utilisé pour les transformations XSLT.

Etudiant: Loïc Delacour

Année: 2005

Département: Comem+

Filière: Ingénierie des médias

Type de formation: Plein temps

Partenaire externe: M. Luc Patiny, EPFL

Enseignant responsable: Nicolas Chabloz

Téléchargement:
- Télécharger l'affiche