De vertaalcomputer leert langzaam toeristenarabisch /1 reactie

Europese taalweelde

Zelfs pionier Systran is een beetje van zijn geloof gevallen. Na meer dan dertig jaar louter op het ‘taalkundige’ paard gewed te hebben zal Systran in zijn nieuwe 7-versie statistische werkwijzen door zijn regels mengen. “Dat is inderdaad zo”, zeg Pierre Bernassau van Systran. “Volgend jaar willen we een hybride systeem op de markt brengen, maar we werken daarbij niet met miljoenen of miljarden zinnen, maar met tienduizenden. We werken nu zo’n vijf jaar aan een databanksysteem. Dat heeft zo lang geduurd omdat we de juiste verbindingen tussen regels en databank moesten vastleggen. Er zijn al betaversies van in omloop en ook het NIST heeft versie 7 al getest.” Dat betekent niet dat Systran-7 op een handcomputer werkt? Bernassau: “Nee, 7 werkt op servers, maar we hebben niet die gigantische hoeveelheden tekst nodig om goed te kunnen vertalen. Volgend jaar komen we met een versie voor de bureaucomputer.”

Ook de EU zit niet stil. Er is een vertaalsysteem ontwikkeld in het kader van het METIS II-project dat mede gebruik maakt van de gegevensbestanden van het Europees parlement. In een ander project, TC-STAR, is gestreefd naar een Mastor-achtig spraak-naar-spraakvertaalsysteem. Ook TC-STAR maakt gebruik van de bij de EU aanwezige taalweelde die is opgeslagen in de notulen van de EP-vergaderingen. Als een van de belangrijkste ontwikkelingen wordt in een recent EU-persbericht het in elkaar schuiven van de spraakherkenning en de vertaalmodule genoemd. Hoewel het systeem nog niet kan tippen aan de menselijke vertalers, verwacht projectleider Marcello Federico dat binnen een paar jaar het systeem heel fatsoenlijke resultaten zal opleveren, zeker voor eenvoudige taalparen.

Taalkundige benadering(tk)

Naast de keuze tussen statistische of regelgebaseerde MV is ook van belang dat een vertaalsysteem ‘herkent’ in welk taaldomein de, al of niet gesproken, tekst zich bevindt. De resultaten van een vertaalcomputer schieten omhoog als die zich kan beperken tot een vastomlijnd taaldomein. Zo is er in Duitsland tussen 1992 en 2000 voor zo’n slordige 170 miljoen DM (ongeveer € 85 miljoen) VerbMobil in elkaar gezet, dat een telefoongesprek rechtstreeks omzette in de vreemde taal. Zo hoorde een Engelsman een Duitssprekende Duitser Engels praten en de Japanner diezelfde Duitser Japans. Maar dat systeem beperkte zich tot een klein taaldomein, namelijk het maken van afspraken. En zelfs daarvoor waren al gigantische computers nodig.

Nu al scoren vertaalsystemen die zich bijvoorbeeld beperken tot het vertalen van juridische literatuur heel verdienstelijk. In zo’n taaldomein krijg je dat mooie resultaat door gebruik te maken van in dat domein staande uitdrukkingen. Iets soortgelijks speelt met technische handleidingen. “Maar je moet er geen poëzie mee vertalen”, stelt Van den Bosch.”Laat dat lekker met rust. De kunst is de taal in domeinen op te hakken. Binnen domeinen is toch de grootste behoefte. Het gaat er dan om, en dat is een prangende onderzoekvraag, hoe je die domeinen uit elkaar houdt. ”

Bernassau van Systran stelt dat het niet het doel is tolken van vlees en bloed het brood uit de mond te stoten. “Er is een wijde kloof met de algemene machinevertalers op het web zoals die van Google maar ook de eigen Babelfish op Yahoo. Wij mikken op domeingerichte vertaalmachines voor bedrijven, die via leermechanismes steeds beter worden: hoe meer je die voedt met goedgekeurde vertalingen, hoe beter die worden. Daarbij scoort een taalkundige benadering beter dan een puur statistische.”

Reageren via Facebook

Over Arno Schrauwers

Taal heeft altijd mijn grote belangstelling gehad, maar ik heb, vanwege een "verkeerde" schoolopleiding, scheikunde gestudeerd. Ik zag me niet in de grote, boze chemie werken en ben toen uit overtuiging wetenschapsjournalist geworden. Wetenschap is te belangrijk om aan wetenschappers over te laten. En spannend genoeg. Het is helaas niet alles goud wat er blinkt...