Ce post vient compléter le post précédent où je traduisais les manipulations à réaliser pour
installer et utiliser TextMarker au sein d'Eclipse. Vous n'avez pas besoin de lire ce précédent post pour comprendre et réaliser les opérations décrites dans le présent post.
TextMarker est avant tout une bibliothèque libre (licence LGPL) pour le développement d'applications d'extraction d'information à base de règles sur des éléments de surface et des annotations existantes. En tant que bibliothèque il peut s'utiliser relativement simplement au sein d'un Analysis Engine (AE) d'Apache UIMA. C'est aussi un environnement de développement au sein d'Eclipse base sur le
framework DLTK (Dynamic Languages Toolkit) qui offre via ses plugins un éditeur de règles, des composants pour l'explication de l'inférence des règles et un processus de construction d'Analysis Engines et Systemes de Types.
Il est développé par Peter Kluegl and Martin Atzmueller and Frank Puppe à l'université de Wuerzburg (de).
La
FAQ de TextMarker indique comment développer une application Java qui utilise TextMarker. De l'explication, on en déduit certains éléments pour utiliser au sein d'un AE.
DEUX PRE-REQUIS : des bibliothèques et le projet exemple
L'utilisation de TextMarker requiert deux bibliothèques. Il s'agit de
- AntLR 3.1.3
- de.uniwue.tm.textmarker.engine
AntLR se trouve disponible soit directement sur le site officiel soit dans le plugin Eclipse de TextMarker via l'update site mais pas dans l'archive dédiée à l'installation manuelle (tout au moins il semble manquer des éléments dans le jar supposé plugins/de.uniwue.dltk.textmarker.antlr_3.1.3.201102241433.jar car j'obtiens un java.lang.ClassNotFoundException: org.antlr.runtime.CharStream) .
Pour rappel, on ajoute un update site à Eclipse via le menu Help > Install new softwares (sélectionner et installer les éléments présentés).
La bibliothèque de.uniwue.tm.textmarker.engine se trouve disponible indifféremment via Eclipse update site ou via l'archive pour l'installation manuelle (la première est en générale plus récente). Ces bibliothèques se trouveront dans le répertoire ECLIPSE_HOME/plugins.
Le
projet exemple fournit des exemples de descripteurs d'AE et de TS. Le récupérer. Je vous invite à consulter les différents fichiers du répertoire
script et bien entendu la
documentation en ligne (menu de gauche chapitre Langage) pour comprendre. Globalement l'ensemble de scripts sert à annoter différents éléments d'un référence bibliographique...
VOTRE PREMIER AE AVEC TEXTMARKER
Afin de réaliser un premier AE, le plus simple est de
Avant d'exécuter, je jète un oeil aux descripteurs d'AE en
ouvrant avant le Component Descriptor Editor et constate une erreur...
Les descripteurs se trouvent dans
descriptor.de.uniwue.example. Il s'agit de
- AuthorEngine.xml, MainEngine.xml, TestEngine.xml, TitleEngine.xml, YearEngine.xml
Seul TestEngine s'édite sans souci...
... Les autres se plaignent qu'il manque la déclaration du
configurationParameter "descriptorPaths", je le rajoute donc pour chacun à la mano à l'aide du Text Editor
<configurationParameter>
<name>descriptorPaths</name>
<type>String</type>
<multiValued>true</multiValued>
<mandatory>false</mandatory>
</configurationParameter>
et le place sous l'élément
<configurationParameters searchStrategy="language_fallback">
Je lance enfin l'exécution à l'aide du
documentAnalyser en spécifiant l'input et l'output. Tour à tour je teste les différents descripteurs. Ceux ci peuvent s'exécuter indépendamment les uns des autres.
- AuthorEngine.xml et TitleEngine.xml fonctionne directement sans souci, des annotations peuvent être visualisées dans le XMI produit.
- YearEngine.xml et MainEngine.xml requièrent de modifier leurs capabilities dans leur descripteur afin de spécifier les types des annotations que je désire visualiser... il y en a pas mal.
- TestEngine.xml, ne fonctionne pas (null exception)
POUR ALLER PLUS LOIN
TODO
Comment créer son propre AE utilisant TextMarker ?
- http://tmwiki.informatik.uni-wuerzburg.de/Wiki.jsp?page=AnalysisEngine
Comment écrire un script TextMarker ?
- Menu de gauche Langage avec la première section http://tmwiki.informatik.uni-wuerzburg.de/Wiki.jsp?page=Introduction
- http://tmwiki.informatik.uni-wuerzburg.de/Wiki.jsp?page=Dictionaries