Datamining niet opgewassen tegen data-explosie /reageer

Biodiversiteit

Onder de noemer van e-science wordt aan universiteiten inmiddels gewerkt aan verfijndere methoden om nuttige informatie te destilleren uit grote, niet uniforme dataverzamelingen. Over biodiversiteit is wereldwijd bijvoorbeeld een weelde aan informatie beschikbaar. Maar omdat iedere bioloog zijn eigen systeem hanteert bij het noteren van zijn observaties, is het ondoenlijk om een totaalbeeld eruit te destilleren – tenzij je een methode weet te vinden om al die dataformaten alsnog vergelijkbaar te maken.

Daar komt vooralsnog mensenwerk aan te pas: de data moet inhoudelijk geanalyseerd worden om te zien hoe de diverse formats zich tot elkaar verhouden. Voor Nederland wordt momenteel gewerkt aan Ecogrid, een systeem dat alle flora en fauna inzichtelijk moet maken door de diverse instanties die zich daarmee bezighouden zoveel mogelijk van een gezamenlijk datamodel gebruik te laten maken.

Voor de alfa- en gammawetenschappen is in 2005 Data Archiving and Networked Services (DANS) opgezet als instituut van de Koninklijke Nederlandse Academie van Wetenschappen. Het eerste oogmerk van DANS is het ‘redden’ van gegevens die anders allicht verloren zouden gegaan in notitieboekjes, kaartenbakken en floppy’s. Daarnaast is het de bedoeling methoden te ontwikkelen om de informatie te ontsluiten, bijvoorbeeld door standaarden te ontwikkelen om interviews te annoteren, zodat er laten op meer manieren informatie uit te destilleren valt dan door een Google-achtige tekstzoekopdracht.

Kinderporno

Nog ingewikkelder is het om informatie automatisch uit bewegende beelden te destilleren. Er zijn talloze initiatieven op dit vlak, onder meer van het Intelligent Systems Lab Amsterdam (ISLA). Een van de korte filmpjes op de website van ISLA toont een scène uit ‘A view to a kill’. James Bond loopt over een terras, om zijn bovenlijf een groen kader. Als hij achter een tafeltje langs loopt wordt het kader rood en zodra hij weer tevoorschijn komt opnieuw groen. Dit en andere filmpjes laten zien hoe een algoritme soms worstelt met het volgen van bewegende objecten waar een mens zijn hand niet voor omdraait.