Enhancing machine translation

EU research has advanced the study of machine translation (MT), promising major societal and industry impact. The project resulted in a system with enhanced MT architecture, offering a powerful tool for researchers, lecturers and students of natural language processing.

The EU-funded project 'Testing the portability of techniques to handle dissimilar source and target languages in MT' (ENEUS) combined expertise from the fields of linguistics, computer science and translation. The work is important for MT users as well as the study of interactions between computer and human languages.

ENEUS measured the ability of the Matxin MT architecture to be ported to different language pairs. It also assessed the system in terms of having analytic languages (e.g. English) at source and agglutinative languages (e.g. Basque) at target. Matxin proved to be suitable for translation between dissimilar languages as it can handle deep analysis, with emphasis on morphosyntax.

A rule-based machine translation (RBMT) prototype was built following work that ported the existing Spanish–Basque system to work in the English–Basque direction. The prototype covers 35 000 entries. It can address simple affirmative, negative and interrogative sentences comprised of indicative tenses for all four subject–object paradigms, as well as for active and passive voices and imperatives.

ENEUS studied agglutinative features and word order profiles of English and of Basque, Finnish and Hungarian. The last three are agglutinative languages.

Project work clearly showed that SMT systems cannot equally address all agglutinative languages, and that a more source language-oriented approach might be possible and more beneficial. Research on alignment for English–Finnish, English–Hungarian and English–Basque pairs resulted in ENEUS SMT systems being built for all pairs.

As part of the ENEUS outreach programme, over 500 users contributed to the human evaluation campaign. They compared four English–Basque MT systems developed by the project as well as Google's state-of-the-art translator. Results showed the morphologically savvy SMT system was on a par with Google's translator; these two systems performed better against all others.

ENEUS' best system has been integrated within the Bologna Translation Service at Elhuyar, and users will be able to access ENEUS prototypes through the Matxin website (powered by Elhuyar). The RBMT system is the first open-source English–Basque MT system. It is available to developers through sourceforge and offers the possibility of building and researching using English and Spanish as source languages to be translated into any other language.EU-finanzierte Projekt "Testing the portability of techniques to handle dissimilar source and target languages in MT" (ENEUS) kombinierte Fachkompetenz aus den Bereichen Linguistik, Informatik und Übersetzung. Die Arbeit ist für die Nutzer maschineller Übersetzungen sowie die Erkundung von Wechselwirkungen zwischen Computer und menschlichen Sprachen von Bedeutung.

ENEUS maß die Funktionsfähigkeit der Matxin-MT-Architektur in Bezug auf die Übertragbarkeit auf verschiedene Sprachenpaare. Man bewertete das System überdies im Hinblick auf analytische Sprachen (z. B. Englisch) als Ausgangssprache und agglutinierende Sprachen (z. B. Baskische) als Zielsprache. Matxin erwies sich für die Übersetzung zwischen verschiedenen Sprachen als geeignet, da eine Tiefenanalyse mit dem Schwerpunkt Morphosyntax möglich ist.

Man erstellte einen RBMT-Prototyp (regelbasierte Maschinenübersetzung, rule-based machine translation). Im Folgenden arbeitete man an der Übertragbarkeit des existierenden Systems für Spanisch-Baskisch, um in der Richtung Englisch-Baskisch voranzukommen. Der Prototyp umfasst 35 000 Einträge. Er kann einfache bejahende, verneinende und Fragesätze, die aus indikativen Zeitformen bestehen, für alle vier Subjekt-Objekt-Paradigmen sowie für Aktiv- und Passivfomen und Imperative bewältigen.

ENEUS untersuchte agglutinierende Merkmale und Wortstellungsprofile der englischen und der baskischen, finnischen und ungarischen Sprache. Die drei letztgenannten sind agglutinierende Sprachen.

Die Projektarbeit verdeutlichte, dass SMT-Systeme nicht alle agglutinierenden Sprachen gleichermaßen gut in den Griff bekommen, und dass ein mehr an der Ausgangssprache orientierter Ansatz möglich und von Vorteil sein könnte. Die Forschung zum Alignment für englisch-finnische, englisch-ungarische und englisch-baskische Paare ergab ENEUS-SMT-Systeme, die dem Aufbau nach allen Paaren genügen.

Als Bestandteil des ENEUS-Outreach-Programms trugen 500 Nutzer zur Human-Evaluation-Kampagne bei. Sie verglichen vier vom Projekt entwickelte Englisch-Baskisch-MT-Systeme sowie den Google-Übersetzer nach Stand der Technik. Die Resultate wiesen nach, dass sich das morphologisch versierte SMT-System auf einer Stufe mit den Google-Übersetzer befand. Diese beiden Systeme funktionierten gegenüber allen anderen am besten.

Das beste ENEUS-System wurde in den Bologna Translation Service (Elhuyar) integriert. Die Nutzer werden über die Matxin-Website (powered by Elhuyar) auf die ENEUS-Prototypen zugreifen können. Bei dem RBMT-System handelt es sich um das erste Open-Source-Englisch-Baskisch-MT-System. Es steht den Entwicklern über sourceforge zur Verfügung und bietet die Möglichkeit zum Aufbau und zur Erforschung unter Einsatz von Englisch und Spanisch als Ausgangssprachen, die in eine beliebige andere Sprache übersetzt werden sollen.

published: 2015-02-26
Comments


Privacy Policy