Computers kunnen slimmer zoeken op het web /1 reactie

Computers kunnen slimmer zoeken op het web

Waarom geeft een zoekmachine niet à la minute precies het juiste antwoord dat bij de ingevoerde vraag hoort? Omdat de teksten waarin wordt gezocht in een natuurlijke taal zijn geschreven en de computer alleen kunstmatige talen kan interpreteren. Daarom moet de gebruiker zelf de gevonden pagina’s doorspitten op relevante informatie. Een nieuwe rekenwijze die is ontwikkeld door de Eindhovense onderzoeker Gijs Geleijnse kan daar verandering in brengen. Bij Philips Research ontwierp hij een systeem waarmee een computer zelfstandig de gewenste informatie van het web haalt.

‘Haal kennis over de wereld uit het World Wide Web’. Met die opdracht begon Gijs Geleijnse vier jaar geleden aan zijn promotieonderzoek. Daarvoor had hij een Holst-junior contract gekregen, waarmee hij vier jaar lang in de groep User Experiences van Philips Research zijn gang kon gaan. Zijn onderzoeksvraag was in bijzonder algemene termen opgesteld, maar dat stond een succesvolle studie niet in de weg. Het onderzoek van Geleijnse heeft vier patenten opgeleverd en een algoritme waarmee een zoekmachine op internet direct het juiste antwoord geeft op heldere vragen.

Kunstmatig

Vooral de vondst van het nieuwe algoritme levert een praktische toepassing op. Een voorbeeld hoe zoeken met een vraag met de huidige systemen tot verwarring kan leiden. Om de vraag ‘Wanneer is Gijs Geleijnse afgestudeerd aan de TU/e’? via het web te beantwoorden gebruik je nu een zoekmachine als AltaVista, Yahoo of Google. Tik de kenmerkende woorden uit de vraag in het zoekvenster en je komt uit op een opleidingsgids van Technische Wiskunde, melige citaten uit Supremum, het blad van studievereniging GEWIS, en een afstudeeropdracht van een heel andere Gijs. Zoeken met alleen de naam van de afstudeerder levert meer gegevens (22.100 hits) maar ook veel meer werk. Want je moet zelf lezen en de relevante informatie extraheren.

“Het probleem is dat alle teksten op het web in natuurlijke taal geschreven zijn zoals het Engels of het Nederlands”, legt Geleijnse uit. “De taal waarmee computerprogramma’s werken is kunstmatig, en daardoor maar op één manier te interpreteren. Een natuurlijke taal heeft als nadeel dat hij voor meerderlei uitleg vatbaar is: een Nederlandse zin kan wel vijf betekenissen hebben. Daar heeft een zoekmachine moeite mee. Ik heb nu een datastructuur ontworpen die de computer kan snappen. De kunst is om die informatie uit het web in die datastructuur te stoppen.”

Huiskamer van de toekomst

Het onderzoek van Geleijnse heeft betrekking op ‘ambient intelligence’, een productlijn van Philips met slimme elektronische producten die het welzijn van de gebruiker in zijn leefomgeving verbeteren. “Wanneer je wilt dat de apparatuur om je heen je aanvoelt, heeft die apparatuur wel kennis van de wereld nodig. Van het weer, of er files zijn en wat ook al weer de hoofdstad van Australië is. Dus: intelligentie vereist kennis. Ik moest proberen de kennis uit het web te peuteren.”

Met het systeem dat Geleijnse bedacht kan een zoekmachine zelf patronen herkennen. “Patronen moet je zien als tekstformuleringen die mensen vaak gebruiken om relaties uit te drukken. Tussen persoon en jaartal is ‘is afgestudeerd in’ een voorbeeld. Of ‘was een’ tussen persoon en beroep. De relaties tussen paren van gerelateerde termen worden met mijn algoritme gevonden en daaruit volgt een concreet antwoord op de vraag.”, verklaart Geleijnse. ‘Gijs Geleijnse’ en ‘2004’ blijkt een paar te zijn bij het patroon ‘is afgestudeerd in’.