Intelligent zoeksysteem analyseert inhoud van beelden /reageer

Intelligent zoeksysteem analyseert inhoud van beelden

Bart Thomee gaf zijn proefschrift als titel het gezegde ‘Een beeld zegt meer dan duizend woorden’ mee. Om vervolgens te bewijzen dat je lang geen duizend woorden nodig hebt om een beeld te beschrijven, als je maar de juiste woorden kiest. De onderzoeker hield zich vooral bezig met de visuele inhoud van beelden. “Ons huidige werk staat aan de basis van een ontwikkelingsrevolutie.”

Computers hebben op vele terreinen de mens al lang verslagen: schaken, het voorspellen van het weer, het besturen van een vliegtuig. Toch zijn er nog zat gebieden waarin de computer het aflegt tegen de mens, bijvoorbeeld als er cognitieve of intuitieve processen in het spel zijn, zoals bij het interpreteren van beeld. “Een computer kan wel kijken,” legt Bart Thomee uit, “maar hij kan maar in heel beperkte maten ‘zien’. En begrijpen wat hij ziet blijkt helemaal moeilijk.”

Thomee, onderzoeker bij het Leiden Institute of Advanced Computer Science, probeert daar wat aan te doen. Hij ontwikkelde onder meer een zoeksysteem voor beeldbanken waarmee je slim kunt browsen en slim kunt beschrijven.

“De titel van mijn proefschrift - Een beeld zegt meer dan duizend woorden - heeft betrekking op het probleem dat een beeld met wel meer dan duizend woorden beschreven kan worden, maar dat de computer niet doorheeft welke woorden dat allemaal kunnen zijn,” verklaart Thomee. “Daarom gebruik ik technieken die de inhoud van de beelden analyseert, en niet beschrijft met trefwoorden.” De ondertitel van zijn proefschrift is dan ook: technieken voor het zoeken naar beelden op basis van hun visuele inhoud. Thomee bouwde onder meer een intelligent zoeksysteem, dat ook nog eens snel is en niet teveel geheugen vraagt.

Terugkoppeling

“Een belangrijke verbetering in dat systeem is dat je niet eerst honderden trefwoorden hoeft op te geven, of dat je minuten lang moet wachten op het zoekresultaat.” Een probleem bij het beschrijven van een beeld is dat niet iedereen dezelfde trefwoorden gebruikt. Ook bij het coderen van trefwoorden worden niet altijd dezelfde begrippen hanteert.

“Wat door de ene persoon als een ‘vakantiekiekje van een berg’ wordt gezien, kan door de ander worden beschreven als ‘landschap van IJsland’, en door een derde als ‘de Eyjafjallajökull vulkaan op het punt van uitbarsten’”, geeft Thomee als voorbeeld. Om mensen naar foto’s te kunnen laten kunnen zoeken, zal een computer dus met allerlei mogelijke omschrijvingen van de foto rekening moeten houden.

Als een database miljoenen beelden bevat, is het zoeken naar de juiste plaatjes een echte opgave. Onder meer de vereiste rekenkracht, opslag- en geheugencapaciteit en acceptabele precisie in de gevonden resultaten zijn dan essentieel. Het werken aan een intelligent visueel woordenboek was dus een belangrijk aandachtspunt.