De vertaalcomputer leert langzaam toeristenarabisch /1 reactie

Semantisch

Een belangrijke reden voor de moeizame weg die machinevertaling (MV) aflegt is gelegen in de aanpak. De meeste ontwikkelaars hebben MV geprobeerd te benaderen door het opstellen van grammaticale regels en met de betekenis van woorden en constructies, de semantiek. Dat blijkt niet eenvoudig. Om een idee te geven: het Finse bedrijf Sunda Systems Oy heeft vorig jaar een Engels/Fins vertaalsysteem op de markt gebracht. Dat systeem bevat 150.000 betekenisregels, 60.000 contextuele regels en 2000 grammaticale regels. Van den Bosch: “De semantische en grammaticale benadering is te complex om te kunnen werken, vooralsnog.”

Van den Bosch werkt zelf met woordreeksen. De computer vertaalt dan niet woord voor woord, dat levert vaak heel kromme zinnen op in de doeltaal, maar beschikt over een databank van woordcombinaties. Zo zou je bijvoorbeeld het woord ‘gelijk’ (znw) kunnen combineren met ‘halen’ (je gelijk halen), ‘nemen’ of ‘bepleiten’. Met zo’n strategie krijg je al heel nette resultaten zonder dat de vertaalcomputer grammaticale regels in ‘zijn hoofd’ hoeft te hebben. Je kunt het ingewikkelder maken en hele zinnen in je databank stoppen. Dat is de Google-aanpak. Google heeft een databank met tientallen miljoenen zinnen en hun vertalingen. Dan is het dus nodig dat je computer groot en krachtig genoeg is om in korte tijd uit die gigantische woordenbrij de juiste combinatie te kiezen. Google Translate is met zijn statistische benadering vooralsnog de kampioen MV. Maar het is ook duidelijk dat je met zo’n aanpak moeilijk uitkomt met een handcomputer zoals de Mastor van IBM.

Productiewinst

“Het gaat er ook nog helemaal niet om, om een 100 procent goede vertaling te krijgen vooraleer je met automatisch vertalen iets kunt doen,” zegt Nathalie de Sutter van CrossLanguage in Gent, een bedrijf dat diensten levert aan bedrijven op het gebied van machinevertaling. “We werken met alle vertaalsystemen die commercieel verkrijgbaar zijn, of die nou statistisch of regelgebaseerd zijn. We bouwen die aangepaste machines voor klanten en kijken hoe goed het resultaat is.” Maar daar gaat het juist om. Die is toch vaak heel krukkig? De Sutter: “Misschien, maar MV dient twee doelen. Ten eerste is daar dat wat wij ‘gisting’ noemen, het zoeken van bepaalde begrippen in anderstalige teksten, bijvoorbeeld in databanken van octrooibureaus. Daarbij gaat het er vooral om de juiste documenten bij elkaar te zoeken en die dan te (laten) vertalen.”

“Het tweede grote doel is het ondersteunen van een menselijke vertaler. Voor menselijke vertalers is zo’n steun een geweldige vooruitgang. Vaak hoeft die zelfs zo’n 30 procent van de tekst helemaal niet meer aan te raken en dat betekent grote productiviteitwinst. Dan heb je het vooral over technische vertalingen, handleidingen en dat soort dingen. Ook bij de ondersteuning van webdiensten kan machinevertaling uitstekend van pas komen. Je hebt niet zoveel aan machinevertaling bij literaire of bij stilistisch goede teksten. We beogen een grammaticaal juiste tekst te leveren en niet een literaire stijl te leveren.”

De Sutter stelt dat machinevertaling op het ogenblik nog niet erg is ingeburgerd, maar dat MV nu al goede mogelijkheden biedt. “De technologie kan op dit moment al een hoop aan. Die ligt binnen handbereik.” Die uitspraak zou je natuurlijk kunnen afdoen als een wensdroom van een belanghebbende, maar ook Van den Bosch is, ondanks zijn bij tijd en wijlen sombere bespiegelingen, vrij optimistisch. “Wat je gezien hebt is dat de afgelopen jaren niet alleen veel wetenschappers op dit terrein het bijltje er bij hebben neergegooid, maar ook het bedrijfsleven zag er kennelijk geen brood meer in. Philips, KPN, AT&T, heel wat bedrijven die zich met taaltechnologie bezighielden hebben die activiteiten verkocht of zijn er mee opgehouden. Maar ik denk toch dat de tijd er nu rijp voor is. Daarbij zou de overheid het voortouw moeten nemen.”

Toren van Babel

Waarom zijn de grote bedrijven eigenlijk opgehouden met de vertaalontwikkeling? En waarom horen we toch zo weinig van een overheid als de Europese Commissie? “IBM gaat er in ieder geval volop mee door”, zegt Jacques de Kegel van IBM Benelux. Een deel van het probleem lag in de extra moeilijkheidsgraad die IBM zichzelf had opgelegd: de spraaktechnologie. “De microfoon waarmee we werkten, had niet de vereiste kwaliteit, waardoor de demo gebrekkig verliep. Op dit ogenblik doen we de demo met een professionele Sennheiser-microfoon en die werkt verrassend goed. Zelfs vrij complexe volzinnen worden haast probleemloos omgezet. Er zijn zowel testen met Chinees als met Arabisch gebeurd, waarbij beide tot dezelfde goede resultaten leiden.”

IBM speelt nu met het idee om via het in oprichting zijnde Centrum voor Spraaktechnologie in Brussel, waar IBM één van de stichtende leden is, de waaier aan ondersteunde talen verder uit te breiden. “In het bijzonder de Europese talen,” aldus De Kegel. “Om zo op termijn hopelijk de EU-toren van Babel op te lossen.” Maar hoe benadert IBM te vertaalkluif? Het bedrijf blijkt twee werkwijzen te combineren. Het maakt gebruik van zowel de statistische als de regelgebaseerde techniek. De IBM-vertaler zoekt in databanken, maar daarnaast ‘leert’ het systeem ook van taalkundig gemotiveerde keuzes. IBM meldt trots dat hun Arabisch-Engelse vertaalsysteem in maart van dit jaar door menselijke beoordelaars van het Amerikaanse norminstituut NIST uit 12 systemen is verkozen als beste.

Vertalers blijven

Van den Bosch gunt IBM zijn succes: “Ze vertellen verder tussen de regels door dat hun statistische MV iets rijker, taalkundig iets correcter is dan de “brute” oplossing van Google. En IBM is inderdaad een echte pionier geweest in de jaren ‘90 onder leiding van Fred Jelinek. De loftrompet is volkomen terecht. Ik denk dat mijn werk een beetje tussen Google en IBM in zit.”

De Kegel geeft aan dat IBM blijft doorgaan op weg naar de verbetering van de vertaaltechnologie. “Maar, de vertalers en tolken in Brussel hoeven nog niet te vrezen voor hun baan. We realiseren ons dat dit een langdurig proces zal zijn en dat de meeste vertalers probleemloos de pensioengerechtigde leeftijd zullen bereiken zonder omscholing.” Alle optimisme ten spijt vermoedt De Kegel dat er nog wel wat “water naar de zee zal vloeien,” aldus De Kegel, voordat alle talen van de EU ondersteund zullen worden. Vooral als de EU blijft groeien, en er voortdurend nieuwe talen bij komen. “In ieder geval hebben onze collega’s in de spraaklaboratoria een fundamentele stap voorwaarts gezet in het ontrafelen van het talenkluwen en is het realistische te dromen dat op termijn iedereen met iedereen zal kunnen communiceren, ongeacht de taal die hij of zij spreekt.”