The EU-funded project 'Testing the portability of techniques to handle
dissimilar source and target languages in MT' (ENEUS) combined expertise
from the fields of linguistics, computer science and translation. The
work is important for MT users as well as the study of interactions
between computer and human languages.
ENEUS measured the ability of the Matxin MT architecture to be
ported to different language pairs. It also assessed the system in terms
of having analytic languages (e.g. English) at source and agglutinative
languages (e.g. Basque) at target. Matxin proved to be suitable for
translation between dissimilar languages as it can handle deep analysis,
with emphasis on morphosyntax.
A rule-based machine translation (RBMT) prototype was built
following work that ported the existing Spanish–Basque system to work in
the English–Basque direction. The prototype covers 35 000 entries. It
can address simple affirmative, negative and interrogative sentences
comprised of indicative tenses for all four subject–object paradigms, as
well as for active and passive voices and imperatives.
ENEUS studied agglutinative features and word order profiles of
English and of Basque, Finnish and Hungarian. The last three are
agglutinative languages.
Project work clearly showed that SMT systems cannot equally address
all agglutinative languages, and that a more source language-oriented
approach might be possible and more beneficial. Research on alignment
for English–Finnish, English–Hungarian and English–Basque pairs resulted
in ENEUS SMT systems being built for all pairs.
As part of the ENEUS outreach programme, over 500 users contributed
to the human evaluation campaign. They compared four English–Basque MT
systems developed by the project as well as Google's state-of-the-art
translator. Results showed the morphologically savvy SMT system was on a
par with Google's translator; these two systems performed better
against all others.
ENEUS' best system has been integrated within the Bologna
Translation Service at Elhuyar, and users will be able to access ENEUS
prototypes through the Matxin website (powered by
Elhuyar). The RBMT system is the first open-source English–Basque MT system. It is available to developers through
sourceforge
and offers the possibility of building and researching using English
and Spanish as source languages to be translated into any other
language.EU-finanzierte Projekt "Testing the portability of techniques to
handle dissimilar source and target languages in MT" (ENEUS) kombinierte
Fachkompetenz aus den Bereichen Linguistik, Informatik und
Übersetzung. Die Arbeit ist für die Nutzer maschineller Übersetzungen
sowie die Erkundung von Wechselwirkungen zwischen Computer und
menschlichen Sprachen von Bedeutung.
ENEUS maß die Funktionsfähigkeit der Matxin-MT-Architektur in Bezug
auf die Übertragbarkeit auf verschiedene Sprachenpaare. Man bewertete
das System überdies im Hinblick auf analytische Sprachen (z. B.
Englisch) als Ausgangssprache und agglutinierende Sprachen (z. B.
Baskische) als Zielsprache. Matxin erwies sich für die Übersetzung
zwischen verschiedenen Sprachen als geeignet, da eine Tiefenanalyse mit
dem Schwerpunkt Morphosyntax möglich ist.
Man erstellte einen RBMT-Prototyp (regelbasierte
Maschinenübersetzung, rule-based machine translation). Im Folgenden
arbeitete man an der Übertragbarkeit des existierenden Systems für
Spanisch-Baskisch, um in der Richtung Englisch-Baskisch voranzukommen.
Der Prototyp umfasst 35 000 Einträge. Er kann einfache bejahende,
verneinende und Fragesätze, die aus indikativen Zeitformen bestehen, für
alle vier Subjekt-Objekt-Paradigmen sowie für Aktiv- und Passivfomen
und Imperative bewältigen.
ENEUS untersuchte agglutinierende Merkmale und Wortstellungsprofile
der englischen und der baskischen, finnischen und ungarischen Sprache.
Die drei letztgenannten sind agglutinierende Sprachen.
Die Projektarbeit verdeutlichte, dass SMT-Systeme nicht alle
agglutinierenden Sprachen gleichermaßen gut in den Griff bekommen, und
dass ein mehr an der Ausgangssprache orientierter Ansatz möglich und von
Vorteil sein könnte. Die Forschung zum Alignment für
englisch-finnische, englisch-ungarische und englisch-baskische Paare
ergab ENEUS-SMT-Systeme, die dem Aufbau nach allen Paaren genügen.
Als Bestandteil des ENEUS-Outreach-Programms trugen 500 Nutzer zur
Human-Evaluation-Kampagne bei. Sie verglichen vier vom Projekt
entwickelte Englisch-Baskisch-MT-Systeme sowie den Google-Übersetzer
nach Stand der Technik. Die Resultate wiesen nach, dass sich das
morphologisch versierte SMT-System auf einer Stufe mit den
Google-Übersetzer befand. Diese beiden Systeme funktionierten gegenüber
allen anderen am besten.
Das beste ENEUS-System wurde in den Bologna Translation Service
(Elhuyar) integriert. Die Nutzer werden über die Matxin-Website (powered
by
Elhuyar) auf die
ENEUS-Prototypen zugreifen können. Bei dem RBMT-System handelt es sich
um das erste Open-Source-Englisch-Baskisch-MT-System. Es steht den
Entwicklern über
sourceforge
zur Verfügung und bietet die Möglichkeit zum Aufbau und zur Erforschung
unter Einsatz von Englisch und Spanisch als Ausgangssprachen, die in
eine beliebige andere Sprache übersetzt werden sollen.