De vertaalcomputer leert langzaam toeristenarabisch
/1 reactie
-
door: Arno Schrauwers over: informatica, software, communicatie, computer, e-commerce op: 4 december 2008 Vertalen blijkt lastig te automatiseren.
IBM en Amerikaanse leger doen een nieuwe poging.
Ruim vijftig jaar geleden kondigde IBM aan dat het niet lang meer zou duren of de automatische vertaler kon zijn menselijke collega naar de kroon steken. Het is nog steeds niet zo ver, maar de laatste jaren wordt toch aanzienlijke vooruitgang geboekt. Niet door de computer te voeren met taalregeltjes, maar simpelweg door gebruik te maken van databanken die vol zitten met zinnen; tientallen miljoenen zinnen zoals bij Google Translate. Systran is ook een beetje van zijn geloof gevallen en introduceert volgend jaar systeem nummer 7, dat deels is gebaseerd op een databank.
Ooit had Nederland verschillende onderzoeksgroepen die zich met machinevertaling (MV) bezig hielden. Die zijn zo zoetjes aan verdwenen, maar er gloort hoop. In Tilburg is een hoogleraar benoemd die zich gaat bezig houden met de informatische kant van taal en betekenis (een chique omschrijving van machinevertaling). De kersverse hoogleraar Antal van den Bosch ziet het rooskleurig in: “De toekomst komt steeds dichterbij. (…) De uitdaging is er. Het kan wat worden als er een kritische massa wordt opgebouwd aan fundamenteel onderzoek. Daar zal de overheid voor moeten zorgen.”
Geen ABC-tje
“I am Saddam”, zegt de computer als ik in het Engels aan Mastor meld dat ik uit Amsterdam kom. Lichte hilariteit op het Nederlandse hoofdkantoor waar ik het Engels/Chinese spraak- en vertaalsysteem van het Amerikaanse bedrijf mag testen. Vertalen is al moeilijk genoeg, maar IBM heeft het zich extra lastig gemaakt door in zijn vertaalsysteem ook nog eens spraakmodule in te bouwen. De ingesproken tekst moet eerst omgezet worden in digitale tekst, die wordt vertaald en Mastor spreekt die vertaalde tekst ook weer uit.
In 2001 is IBM onder de vlag van het Amerikaanse ministerie van Defensie begonnen met een groot project om een goed vertaalsysteem van Engels naar Mandarijn Chinees te ontwikkelen, het algemeen ‘beschaafd’ Chinees. Maar toen de Amerikanen in 2003 Irak binnen vielen en er een gigantisch taalprobleem op de Amerikaanse soldaten af kwam, is overgeschakeld op het Arabisch. In 2004 was die machinetolk gereed en heeft IBM het Amerikaanse leger enkele duizenden handcomputers geschonken voorzien van speciale microfoons en het Mastor-systeem. Zo’n machinetolk spreekt toeristenarabisch: waar is het station, hoe heet je, waar woon je, heb je wapens bij je en meer van dat soort simpele taal.
De beloften
Taal blijkt een lastige kluif voor de computer. Al in 1954 kondigde IBM na een demonstratie op de Universiteit van Georgetown aan dat binnen afzienbare termijn de machinevertaler de menselijke vertaler naar de kroon zou steken. Dat bleek toch een iets harder te kraken noot dan Big Blue had gedacht. Nu, een dikke vijftig jaar later, is - vooral dankzij Google - machinevertaling een stuk verder. Maar het is nog steeds een illusie te denken dat de tolken in het Europees Parlement wel kunnen worden afgeschaft.
Het van oorsprong Engelse, maar tegenwoordig in Frankrijk zetelende Systran, is al zo’n veertig jaar bezig met zijn Babelfish, en dat vertaalt “Hij heeft haar op zijn hoofd” met “He has her on its head”. “Toch is dat helemaal geen slecht systeem,” zegt computerlinguïst Van den Bosch, sedert 1 januari hoogleraar Geheugen, Taal en Betekenis aan de Universiteit van Tilburg. “Het punt is alleen dat in de jaren ´60, ´70 en ´80 grote beloften zijn gedaan die niet zijn waargemaakt. Al die tientallen EU-miljoenen die aan machinevertaling zijn besteed hebben weinig concrete systemen opgeleverd. En de teloorgang van het Belgische bedrijf Lernout & Hauspie is een fikse klap geweest voor het hele gebied van de taaltechnologie. Ooit zat er in Utrecht een volledige vakgroep die zich bezig hield met machinevertaling, maar nu zijn bijna al die onderzoeksgroepen in Nederland verdwenen, op een paar onderzoekprojecten in Amsterdam en Tilburg na.”