jeudi 12 avril 2012

Sujet de thèse en Traitement Automatique des Langues et Multilinguisme

English version below.

-------------------------------------------------------------------------------

Sujet de thèse en Traitement Automatique des Langues et Multilinguisme

L'équipe du Traitement Automatique du Langage Naturel (TALN) du Laboratoire
Informatique de Nantes Atlantique (LINA UMR CNRS 6241) à l'Université de Nantes
propose un sujet de thèse en Informatique dans les domaines du Traitement
Automatique des Langues et du Multilinguisme.

*Titre:*
Analyse des structures discursives des textes et alignement de terminologies
multilingues en corpus comparables ; pour une modélisation discursive de la
notion de contexte.

*Résumé : *
La traduction automatique est l'une des activités de recherche les plus
ambitieuses de notre temps. Ce travail de thèse propose de s'attaquer à l'un de
ses enjeux, à savoir l'"alignement de terminologies multilingues" en corpus
comparables, et ce en explorant de nouvelles méthodes de mise en correspondance
des termes, à savoir à l'aide d'"analyses des structures discursives des
textes". L'approche état de l'art consiste à établir une mise en correspondance
des termes en mesurant la similarité de leurs contextes d'apparition à l'aide
de dictionnaires bilingues préexistants. Les problèmes fondamentaux de cette
approche sont qu'elle repose sur une modélisation très pauvre du contexte
d'apparition d'un terme (un sac de mots apparaissant autour des termes
analysés) et qu'elle présuppose l'existence de ressources lexicales bilingues
pour être réalisée.
Ce travail a pour objectif d'expérimenter des contextes de termes définis sur
la base de résultats d'analyses du discours ainsi que réfléchir à la définition
d'une notion de contexte discursif plus en adéquation avec la tâche.
Ce sujet émerge dans la continuité du projet européen TTC et du projet ANR
MeTRICC dont l'équipe TALN assure les coordinations.

*Mots clefs :*
Traduction, Alignement de terminologies multilingues, Analyse et modélisation
des structures du discours, Corpus comparables

*Profil et compétences recherchés: *
M2 Recherche informatique ou école d'ingénieurs
Bon niveau en anglais
Bonnes notions en apprentissage automatique
Bonnes connaissances en programmation Java/Python
Affinités avec le logiciel libre et le développement collaboratif

*Procédure de candidature* :
La date butoir de réception des candidatures est  le 20 Avril 2012 mais
la position restera ouverte jusqu'à ce qu'elle soit attribuée.
La thèse démarrera en Octobre 2012 et sera financée par une allocation ministérielle.
Les candidats intéressés sont invités à prendre contact le plus tôt possible
et à envoyer les informations suivantes : une lettre de motivation incluant votre
positionnement par rapport aux compétences attendues, un CV, un relevé
de notes avec classement au Master (au moins pour la période écoulée), un
lien vers un site web présentant le programme de votre master et des lettres
de recommandations de vos encadrants scientifiques.
Cette thèse pourra être précédée d'un stage de master recherche financé
sur le même thème. Prendre contact.

*Contact : *
Nicolas Hernandez et Emmanuel Morin (prenom.nom à univ-nantes.fr)

*Plus d'information sur le sujet de thèse :*
http://www.edstim.fr/these/sujets-de-these/informatique
http://e.nicolas.hernandez.free.fr/pub/rec/12 




-------------------------------------------------------------------------------
Researcher  position available: PhD in Natural Language Processing

The University of Nantes (West coast of France) offers an opening for a 3-year
PhD position at the LINA Computer Sciences Laboratory in the NLP Team (TALN).

LINA TALN leads research in several NLP domains such as term extraction,
syntactic and semantic analysis, and develops several applications (e.g.
machine translation, opinion mining, plagiarism detection).
LINA TALN participates in various projects founded by regional, national
and European sources.
http://www.lina.univ-nantes.fr/

*Subject:*
Discourse structure analysis and multilingual terminology alignment from comparable corpora.
Toward a discourse definition of the notion of context

*Brief description: *
Multilingual terminology alignment from comparable corpora is one of the major
issue of the automatic translation problem. To tackle this issue, the baseline
approach proposes to align terms whose contexts are considered as similar
thanks to bilingual dictionaries. This approach presents some drawbacks since
the context model is quite simple (a bag of words occurring around the
considered term) and because it requires external resources for performing.
The current study aims at exploring a new approach for building term contexts.
The idea is to use a more linguistically inspired approach: in particular to
use discourse analysis both for providing semantically delimited text area
around term occurrences and rhetorically dependent utterances in relation to
the utterance where a term occurs. The work will start by trying out
state-of-art discourse analysis methods, then it will go into the definition of
a discourse context notion related to the task in depth. This research will
pursue the works accomplished in the national and European projects MeTRICC
and TTC.

*Topics :*
Machine translation, Multilingual terminology alignment, Discourse analysis,
Comparable corpora

*Qualifications:
The ideal candidate would have:
- (or soon receive) a Master degree in computer science/engineering
- a background in NLP and/or machine learning
- programming skills in JAVA/Python
- experience in open source development (appreciated)
- good English proficiency and ability to learn French (if appropriate)

*Application procedure:*
The application deadline is April 20, 2012 , but consideration of candidates
will continue until the position is filled. It is expected to start on October 2012.
Candidates interested in the position are asked to contact Nicolas Hernandez
and Emmanuel Morin (firstname.lastname at univ-nantes.fr) with the following
documents: A letter of motivation outlining your interest in the specific project,
a curriculum vitae, at least two recommendation letters from a senior
researcher/professor who can judge your potential as a future PhD student.

The program will be funded by a grant from the French government.
Median annual earnings are between 20,000 and 24,000 Euros.

*More information on:*
http://www.edstim.fr/these/sujets-de-these/informatique
http://e.nicolas.hernandez.free.fr/pub/rec/12 

Master Informatique spécialité ATAL : Apprentissage et Traitement Automatique de la Langue

A la rentrée 2012/2013 ouvrira à l'université de Nantes un Master Informatique spécialité ATAL (Apprentissage et Traitement Automatique de la Langue).

Le Master ATAL viser à former des spécialistes de l'apprentissage automatique aux particularités des applications informatiques relevant du traitement automatique de la langue (TAL). Il s'agit notamment de pouvoir mettre en oeuvre des nouvelles applications prenant en compte des masses de données complexes et hétérogènes.

La formation se veut pratique et fondamentale. Le but est de former en deux ans des étudiants issus de filières informatiques à un ensemble de techniques d'apprentissage automatique et de traitement automatique de la langue qui sont au coeur des applications en ingénierie des langues (comme en recherche d'information, en aide à la traduction, en analyse d'opinions).

La formation s'inscrit dans une dynamique internationale en s'appuyant sur des personnalités scientifiques reconnues dans leurs domaines de compétences.

Plus d'information sur atal.univ-nantes.fr