Datamining niet opgewassen tegen data-explosie /reageer

Camembert

Dat mining is niet één techniek, maar een verzameling van eenvoudige en complexe technologieën. In feite is een zoekopdracht in Google ook een vorm van datamining. De zoekmachine gebruikt immers complexe algoritmen om gewenste informatie te destilleren uit de enorme hoeveelheid tekst die het wereldwijde internet bevat. Ze kan echter weinig met de meta-informatie die gestructureerde databases bevatten. Wie ‘titel boek Multatuli’ intikt, krijgt als resultaat pagina’s waar die drie trefwoorden op staan. Goede kans dat ‘Max Havelaar’ ook op die pagina’s staat, maar dat is niet het resultaat dat Google gevonden heeft.

Geavanceerdere dataminingmethoden kunnen ook met gestructureerdere informatie omgaan. De kunst is dan veelal om statistische correlaties te vinden. Dit gebruikt online winkel Amazon bijvoorbeeld om op basis van iemands aankoopgedrag en dat van andere mensen met vergelijkbare voorkeuren suggesties te doen wat de gebruiker nog meer interessante boeken of cd’s zou kunnen vinden. Ook sociale netwerksites bevatten veel gestructureerde informatie waar met statistische methoden verbanden tussen te vinden zijn, bijvoorbeeld met het doel gericht advertenties erbij te zetten.

Methoden uit de kunstmatige intelligentie kunnen ingezet worden om betere resultaten te krijgen. Neurale netwerken, waarmee multidimensionale niet-lineaire correlaties te vinden zijn, worden bijvoorbeeld gebruikt om verdachte transacties uit de stromen van credit card betalingen te vissen. Neurale netwerken moeten ‘getraind’ worden. Dat wil zeggen, ze moeten een aantal voorbeeld van bekende correlaties krijgen om het patroon aan te leren waarnaar ze moeten zoeken.

Nog geraffineerdere resultaten zijn te krijgen door redeneerregels toe te passen van het type: zeventig procent van de mensen die toastjes kopen, kopen ook brie of camembert. Dergelijke regels zijn uit data af te leiden of bij gebrek daaraan door menselijke experts op te stellen. Als je ze eenmaal kent, maakt dat het zoeken stukken eenvoudiger, net zoals een schaakprogramma minder stellingen hoeft door te rekenen, als het weet dat een bepaalde zet in een oude partij tot een desastreus resultaat leidde.