De intelligente, datagedreven organisatie (8e druk) - Heel interessant, duidelijk en leerzaam boek!

De 6 meest rake redeneringen om géén data lake aan te leggen

Foto Dick Pouw MBA
Auteur: Dick Pouw MBA
Associate Partner Datagedreven werken
Inhoudsopgave

In onze door technologie gedomineerde wereld geloven wij graag in vooruitgang. Maar soms vergeten we dat nieuw niet altijd beter is. Een goed voorbeeld hiervan is het fenomeen data lake. Letterlijk vertaalt: een meer aan data. Het is een hype in de wereld van Business Intelligence (BI) en Big Data. Veel bedrijven gingen er direct mee aan de slag. Maar was dit wel zo’n goed idee? Was het niet beter geweest eerst goed na te denken over wat je hiermee kunt bereiken? En heb je wel ervaren en volleerde vissers in huis die uit dat lake de meest interessante vissen kunnen hengelen?

Wat is een data lake?

Voordat we deze vragen beantwoorden, is het goed om een heldere voorstelling van een data lake te hebben. James Dixon, de grondlegger en CTO van Pentaho, vond de term uit. Hij beschrijft het als volgt:

“Als je een datamart beschouwt als een winkel vol met flesjes water – schoon, verpakt, georganiseerd en klaar voor consumptie – dan is het data lake een grote hoeveelheid water in een meer natuurlijke staat. De inhoud van dit meer komt uit diverse bronnen en vult zo het meer. Het is echter ongezuiverd water en niet verpakt. Meerdere gebruikers kunnen erin duiken, vissen, het onderzoeken en monsters meenemen.”

Datawarehouse versus data lake

Het grootste verschil tussen een datawarehouse en een data lake is dat een datawarehouse gevuld is met vooraf gestructureerde data. Een data lake is veel ruwer. Het grote voordeel van een datawarehouse is dat je door die structuur makkelijker antwoorden vindt op je BI-vragen dan bij een data lake. Maar in een data lake sla je veel complexere en of veel grotere massa’s aan data op. Die ga je vervolgens in analyses betrekken op het moment dat deze nodig zijn.
De Big Data Analytics opleiding Afbeelding van De Big Data Analytics opleidingIn deze Big Data Analytics opleiding leer je alles over data lakes, de opslagplaats voor big data. Daarnaast leren we je hengelen met de juiste algoritmes en machine learning technieken. Zodat je goede Big Data resultaten kunt behalen voor jouw organisatie en deze intelligenter en meer datagedreven kan werken.Big Data Analytics training & Data Lakes

Is meer altijd beter?

Veel mensen denken dat meer altijd beter is. Veel organisaties gingen direct aan de slag met data lakes. Sommige managers zagen ze als een goede aanvulling op een datamart of hun datawarehouse. Of zelfs als vervanging. Maar er zijn 6 goede redenen om eerst goed na te denken voordat je zelf een data lake aanlegt.

1. Het meer blijft droog

Als je een meer wilt vullen, heb je miljoenen liters water nodig in plaats van een aantal flesjes. Je hebt dus vele terabytes aan data nodig en vooral ook de juiste data. Stel jezelf dus eerst de vraag of jouw organisatie wel een meer kan vullen en beheren, en met welk doel je deze big data wilt inzetten.

2. Regelgeving gooit roet in het eten

Veel data lakes worden gebruikt voor data die privacy- en regelgevingsrisico’s voor je organisatie opleveren. Organisaties verzamelen niet alleen data over medewerkers en klanten, maar ook over patiënten of cliënten. Deze data is echter niet allemaal onderworpen aan dezelfde regels. Dit klinkt heel logisch. Maar veel organisaties met een data lake weten niet altijd welke data ze allemaal verzamelen. En waar die data vandaan komt en welke verantwoordelijkheden en risico’s hieraan vastkleven.

Data stroomt in je data lake zonder duidelijk toezicht op de inhoud. Je verzamelt namelijk zo veel mogelijk. Omdat er bovendien een gebrek aan prioritering van de ruwe data is, is het nog moeilijker om aan alle wet- en regelgeving te voldoen.

3. Het meer wordt al snel een moeras

Op het moment dat je data lake zich vult, raakt het snel vervuild. Per definitie accepteert een data lake elke soort data. Met alle ruwe data die erin stroomt, is het ontzettend lastig om de datakwaliteit te bepalen, laat staan te bewaken.

Bovendien is het door de ruwe vorm bijna onmogelijk de lijn vast te stellen, en te houden, van ontdekkingen die andere analisten of gebruikers al deden met dezelfde data uit het meer. Zonder beschrijvende metadata moet elke onderzoeker telkens weer van meet af aan opnieuw beginnen. Het traceren van de juiste data is dan een ware nachtmerrie.

Als je niet een manier vindt om je data lake vanaf de start goed te onderhouden, loop je het risico dat je meer binnen de kortste keren een moeras wordt.

4. Geen vissers aanwezig

Okay, je hebt de technologie in huis voor het inrichten van een data lake. Maar heb je wel goede vissers, data scientists? Anders gezegd: beschik je wel over de juiste expertise om de data eruit te halen en effectief voor je organisatie in te zetten? Neem ook punt 2 en 3 goed in overweging. En heb je de juiste mensen om je meer in te dammen, te controleren, te zorgen dat het niet overstroomt en dat niet iedereen er zomaar “zonder visvergunning” ongecontroleerd in vist?

5. BI-tools nog niet allemaal klaar

Inmiddels heb je de vissers verzameld, maar beschikken zij wel over de juiste hengels? Nog lang niet alle BI-tools zijn namelijk zover dat ze kunnen hengelen in je data lake. En nieuwe tooling voor data lakes wijkt nogal af van hetgeen je gewend bent (en geldt punt 4). Voordat je een data lake aanlegt, moet je dus de juiste BI-hengels (en vissers) in huis hebben. Anders vis je naast het net.

6. Begin eerst klein

Heb je jouw zogenaamde “small data” al op orde en benut je die al optimaal? In plaats van direct een heel meer aan te leggen, is het voor veel organisaties beter om eerst eens te starten met flesjes mineraalwater.

Is jouw bedrijf klaar voor een data lake?

Een data lake kan een aanwinst zijn voor je organisatie. Maar start hier pas mee als alle randvoorwaarden op orde zijn. Anders word je data lake snel een moeras waar jouw organisatie hopeloos in vast komt te zitten.

Neem nu contact met ons op, dan kunnen we samen kijken of er wel een goede businesscase is voor een data lake binnen jouw organisatie.

Reacties op dit artikel

Gustavo Woltmann schreef op 26.10.2016 - 14:10:

Bij Big Data gaat het niet altijd om meer is beter, het is veel logischer om enkel de relevante data te analyseren i.p.v. tijd en geld te verspillen aan data waar je toch niets mee bent. Zo’n data lake klinkt vrij onoverzichtelijk!

Minne van der Sluis schreef op 27.10.2016 - 10:10:

Gustavo, je eerste punt is een mooie samenvatting van de portee van het verhaal 😉

De overzichtelijkheid en bruikbaarheid van een data lake staat of valt in mijn ogen met goede metadata. Welke data hebben we wanneer, waarvandaan en met welke redenen in het ‘meer’ laten stromen. En welke inzichten zijn hiermee door wie en op welke wijze verkregen.

Een data lake kan naar mijn mening echter wel heel zinvol zijn, zeker in de Big Data arena! Want hoe als organisatie nu goed en beheersbaar om te gaan met heel veel, veelvormige, snelstromende, soms vluchtige en wisselend betrouwbare, maar wel heel relevante, data? Die krijg je met geen mogelijkheid tijdig, volledig en schoon je data warehouse in… Dan is een data lake toch een uitkomst. Ook als je een traject loopt waarvan je weet dat er naar verloop van tijd een informatiebehoefte zal ontstaan, waarvoor je nu reeds de (big) data-vergaring aan moet zetten.
Maar ook dan moet duidelijk zijn: het is ‘slechts’ een middel, geen doel!

Erik Borgers schreef op 31.10.2016 - 15:10:

Goed verhaal! Zonder de goeie tools staat het water je snel tot de lippen!

Gustavo Woltmann schreef op 02.11.2016 - 15:11:

Bedankt voor je uitgebreide en interessante reactie, Minne!

Bekijk het handboek Artificial Intelligence

Productafbeelding van het handboek Artificial Intelligence

Deze organisaties gingen je voor

Word nu ook klant

Wil je ook klant bij ons worden? Wij helpen je maar wat graag verder met data lakes & Big Data Analytics of andere zaken waar je slimmer van wordt.

Foto Daan van Beek - Managing DirectorDAAN VAN BEEK MScManaging Director

Neem contact met mij op

Fact sheet

___
klanten geholpen
___
trainingen & workshops
___
mensen opgeleid
8,9
klanttevredenheid
___
consultants & docenten
19
jaar ervaring