================================================================ POSTDOCTORAL POSITION AT LIMSI-CNRS Topic: New methods for learning Named Entity Recognition systems in a multilingual context. The development of Natural Language Processing systems is impeded by the absence of annotated data in some languages. A possible solution consists in transferring analyses available in one language to comparable texts in another language. This makes it possible to train new systems based on these new annotations. The proposed project will tackle more specifically the case of Named Entity Recognition in a context where a "synchronous comparable corpus" (or "noisy parallel corpus") is available: AFP news in French, English, Spanish (German, Portuguese and Arabic are also available). The goal is to take advantage of the parallelism of news written in multiple languages to help recognize named entities: - in a language for which a Named Entity Recognition system is already available, strengthen recognition through entities found in parallel articles in other languages; - in a (target) language for which no NER system is available, transfer into that language the analyses obtained in a (source) language for which a NER system is available, and use them to train a system in that (target) language. LIMSI has: - NER systems for French, English and Spanish (with varying levels of performance); - methods for detecting translation relations among news articles. This work takes place in the context of the EDyLex project, funded by the French National Research Agency, whose goal is to process unknown words in texts (http://sites.google.com/site/projetedylex/). The work of the successful candidate will be focused on the detection and categorization of named entities in a multilingual context. The work will be performed at LIMSI-CNRS in Orsay (http://www.limsi.fr/) on the campus of University Paris-South. Two teams at LIMSI are involved in the project: ILES (written and signed language processing) and TLP (spoken language processing). QUALIFICATIONS AND POSITION The successful candidate will have a track record of Machine Learning for Natural Language Processing research. A strong preference will be given to those candidates with experience in Named Entity Recognition or Speech Language Understanding. Fluency in one or more languages of the project beyond English is mandatory. Applicants should have received (by the starting date) a PhD in Machine Learning, Computational Linguistics or related areas. This position is for 12 months and may begin as early as Oct 1st, 2011, or soon thereafter. Salary follows CNRS scales and depends on the candidate's experience (the minimum monthly net salary is about 2,000 €). To apply, please send a cover letter, describing how the applicant's knowledge and research background will contribute to the project, a CV, and the names and contact information of two referees to: Pierre Zweigenbaum (pz@limsi.fr) and Sophie Rosset (rosset@limsi.fr) ================================================================ POST-DOCTORAT AU LIMSI-CNRS Nouvelles méthodes pour l'apprentissage de systèmes de reconnaissances d'entités nommées dans un contexte multilingue. Le développement de systèmes de traitement automatique des langues est gêné par l'absence de données annotées dans certaines langues. Une solution possible consiste à transposer les analyses disponibles dans une langue à des textes comparables dans une autre langue. Cela permet d'entraîner de nouveaux systèmes à l'aide de ces nouvelles annotations. Le projet proposé s'intéressera en particulier au cas des entités nommées dans un contexte où l'on dispose d'un corpus « comparable synchrone » (ou « parallèle bruité ») : des dépêches de l'AFP en français, anglais, espagnol (l'allemand, l'arabe et le portugais sont aussi disponibles). L'objectif est de profiter du parallélisme entre dépêches écrites dans plusieurs langues pour aider à la reconnaissance d'entités nommées : - dans une langue pour laquelle on dispose déjà d'un système de reconnaissance d'entités, renforcer la reconnaissance en s'appuyant sur les entités reconnues dans des articles parallèles d'autres langues ; - dans une langue (cible) pour laquelle on ne dispose pas d'un système de reconnaissance d'entités, transposer dans cette langue les analyses faites sur une langue (source) pour laquelle on dispose d'un système, et s'en servir pour entraîner un système dans cette langue (cible). On dispose en outre : - de systèmes de reconnaissance d'entités nommées pour le français, l'anglais et l'espagnol (avec différents niveaux de performance); - de méthodes pour la détection des dépêches en relation de traduction. Ce travail prend place dans le contexte du projet ANR EDyLex, dont l'objectif principal est de traiter les mots inconnus dans des textes (http://sites.google.com/site/projetedylex/). Le travail du candidat porte plus précisément sur les entités nommées, leur détection et leur typage, dans un contexte multilingue. Le travail s'effectuera au LIMSI-CNRS à Orsay (http://www.limsi.fr/) dans le département communication homme-machine. Deux équipes sont concernées par les thématiques du projet : ILES (traitement de la langue écrite et signée) et TLP (traitement de la langue parlée). PROFIL ET POSTE Le candidat devra maîtriser l'apprentissage automatique pour le traitement automatique des langues. Une expérience en reconnaissance d'entités nommées ou en compréhension de l'oral sera appréciée. Une connaissance approfondie d'une ou plusieurs langues du projet au-delà de l'anglais est nécessaire. Le candidat doit avoir soutenu une thèse (à la date de début du contrat) en apprentissage automatique, en traitement automatique des langues ou dans un domaine proche. Le poste est à pourvoir à partir du 1er octobre pour une durée de 12 mois. Le salaire correspond aux grilles CNRS et dépend de l'expérience du candidat (le minimum est de l'ordre de 2000 € net par mois). Envoyer un CV et une lettre de motivation à : Pierre Zweigenbaum et Sophie Rosset en indiquant une liste d'au moins deux référents pouvant recommander le candidat.