8 Data Science tips | Vermijd de data science valkuilen

8 effectieve manieren om data science voor jou te laten werken

Geschreven door

Met deze data science tips, best practices, en valkuilen kun je data science voor jou laten werken.

Vermijd de belangrijkste data science valkuilen

De afgelopen twee jaar hebben de docenten van de opleiding Master of Data Science met veel toewijding enkele tientallen cursisten de basisprincipes en enkele fijne kneepjes van het vak data science bijgebracht. Op basis van de ervaringen, persoonlijke ambities en feedback van deze individuele cursisten ontstaat een vrij consistent beeld van de issues die momenteel op de werkvloer spelen. Hieruit hebben we 8 succesfactoren voor data science gedestilleerd die we graag met je delen. Belangrijkste take-away: laat de data voor jou werken in plaats van omgekeerd.

1. Laat je niet verblinden door de hype en verzand niet in definitiekwesties

In Nederland proberen overheid, bedrijfsleven, koepelorganisaties en universiteiten elkaar de loef af te steken als het gaat om de vraag wie nu het meest investeert in data science en de sleuteltechnologie AI (Artificial Intelligence definitie). De “peak of inflated expectations” is wel bereikt, de hype is op zijn hoogtepunt.

De Rijksoverheid spant de kroon. Staatssecretaris Mona Keijzer van Economische Zaken schermt met een Strategisch Actieplan AI en investeringen in kunstmatige intelligentie van 2 miljard euro voor de komende 7 jaar. Op te brengen door zowel de overheid als het bedrijfsleven. Vanwege de vaagheid van de plannen lijkt de aankondiging echter meer op het bekende sprookje van de nieuwe kleren van de keizer. Business managers in organisaties worstelen ondertussen met theoretische en praktische vragen. Hoe verhoudt data science zich bijvoorbeeld tot machine learning en artificiële intelligentie?

Tip: vergeet alle ingewikkelde definities. Onthoud het volgende ezelsbruggetje (“data science levert inzichten”) en richt je energie op belangrijkere zaken, zoals een nulmeting.

2. Bepaal het ambitie- en volwassenheidsniveau van jouw organisatie

Een nulmeting is een beproefd middel om te bepalen hoe de verschillende disciplines in de organisatie tegen data science aankijken. Het is meestal de eerste stap in het verbeter- en veranderproces: waar staan wij als organisatie op de “data science ladder”?

Steek de thermometer in je organisatie? Ga na in hoeverre mensen open staan voor nieuwe inzichten en technologieën. Bestaat er een (gedeelde) toekomstvisie? Denkt de top wel in scenario’s: als wij data science negeren, welke risico’s lopen wij dan? Bestaat er een verbetermentaliteit en de wens om voorspelbare processen en resultaten op te leveren? Ziet men data als het belangrijkste asset? Is het besef aanwezig dat datagedreven werken en sturen uitgroeit tot “het nieuwe normaal”? Of regeert de waan van de dag? Vindt men problemen oplossen belangrijker dan problemen voorkomen? Heerst er angst voor onvoorspelbare en ongewenste uitkomsten van data science projecten? Zet de OR de hakken in het zand? Hoe staat het met de digitale geletterdheid? Maakt IT zijn adviserende rol wel waar?

Tip: het beproefde volwassenheidsmodel uit de BI-wereld (begrijpen, coördineren, verbeteren en innoveren) bewijst ook bij het bepalen van de vorderingen op het gebied van AI zijn dienst. Gebruik dit model na de nulmeting als kompas, maar pas op voor een verraderlijke showstopper: datakwaliteit.

3. Bombardeer datakwaliteit tot een absolute topprioriteit

Een gebrekkige datakwaliteit is volgens de meerderheid van de cursisten van de Master of Data Science training een belangrijke reden waarom organisaties nog uiterst terughoudend zijn of soms zelfs helemaal afzien van het opstarten van data science projecten.

Rationeel is deze koudwatervrees goed verklaarbaar: garbage in, garbage out is een bekende Big Data valkuil. Daarnaast worstelen organisaties met gestructureerde, ongestructreede en semi-gestructureerde data, masterdata oftewel stamdata, metadata oftewel data over data, sensordata, weblogdata, onbeveiligde Excel sheets, subjectieve data zoals NPS-scores en FeedbackNow data enzovoorts. Als je al die data dan in een data lake dumpt, dan wordt het bewaken van datakwaliteit een mission impossible.

De hamvraag is: wat kunnen wij als organisatie met de enorme bak big data die wij tot onze beschikking hebben en hoe zetten we ruwe data om in waardevolle informatie?

De indruk bestaat echter dat organisaties een gebrekkige datakwaliteit ook wel als excuus gebruiken om de vingers niet te hoeven branden aan controversiële zaken zoals voorspellende algoritmes, genetische – en optimalisatie-algoritmes. Mensen zien deze toch vooral als black boxes. Dit laat onverlet dat een heldere informatievoorziening en een goede datakwaliteit (actueel, uniek, consistent, compleet, integer en logisch) van fundamenteel belang zijn voor een excellente externe dienstverlening. Maar er is meer nodig voor succesvolle data science: intern draagvlak.

Tip: probeer de teams mee te krijgen in het data science-plan zodat ze ook daadwerkelijk met de rapportages/dashboards gaan werken.

4. Introduceer data science binnen breder kader van datagedreven werken

Het creëren van draagvlak voor nieuwe technologie in organisaties en het bevorderen van gebruikersacceptatie zijn altijd al hot issues geweest. Zo moet Business Intelligence zich als discipline binnen traditioneel georganiseerde organisaties zich soms nog dagelijks bewijzen. Het is daarom verstandig om data science niet als een geïsoleerd project in de organisatie te introduceren.

Kader het in binnen een zo breed mogelijke, aansprekende en inspirerende missie. Zo is het bijvoorbeeld Google’s missie om alle informatie ter wereld te organiseren en universeel toegankelijk en bruikbaar te maken. Facebook wilde oorspronkelijk mensen de macht te geven om te delen en de wereld meer open en verbonden maken. Bij de manier waarop Google en Facebook hun missie proberen te realiseren kun je de nodige kanttekeningen plaatsen. Hun algoritmes en handelspraktijken zijn inmiddels zeer omstreden, ondanks hun glasheldere mission statements. Voor organisaties dichter bij huis is het concept van datagedreven werken of datagedreven sturing een prima kapstok om een eigen missie aan op te hangen.

Tip: missies zijn mooie woorden, maar business managers willen vooral harde pegels zien. Geld verdienen met data science, hoe doe je dat? Big data is big business. Probeer zoveel mogelijk van de klant te weten te komen om nog betere producten en diensten te kunnen aanbieden en te voorspellen waar de klant echt behoefte aan heeft.

Ik wil begrijpen hoe data science werkt, weten welke tools er allemaal beschikbaar zijn en leren hoe je data science (tools) kan inzetten om betere stuurinformatie te genereren

5. Streef altijd naar een sluitende businesscase

Business managers, commercieel directeuren en marketingmanagers willen graag weten hoe data science een (geldelijk) concurrentievoordeel kan opleveren, terwijl IT-managers, enterprise architecten, security professionals, PR-managers en juristen hele andere kopzorgen hebben als data science ter sprake komt. En de data scientists zelf, die willen vooral ongestoord eindeloos experimenteren, interessante patronen ontdekken en algoritmes schrijven, niet gehinderd door financiële KPI’s (voorbeelden) zoals pay back periods, return on investment, juridische kaders en onleesbare gedragscodes.

Toegegeven: het geschetste beeld is gechargeerd, maar ook data science ontkomt niet aan een sluitende businesscase, een toekomstigbestendig businessmodel en een interessant verdienmodel. De tijd dat hoge burn rates oftewel negatieve cashflows stoer waren, ligt mijlenver achter ons.

Kortom: probeer eerst te achterhalen voor welk probleem data science eigenlijk een oplossing biedt. Ga op zoek naar de onderliggende basisbehoefte en probeer die zo scherp mogelijk te formuleren. Inventariseer de benodigde tijd, middelen en capaciteit.

Tip: stel een objectieve kosten-batenanalyse op en kijk of je de businesscase rond kunt krijgen. Maar de ambitie reikt natuurlijk veel verder. Onder de streep draait data science om die zeldzame “Million Dollar Insights”.

6. Bundel alle kennis en ervaring in een Datateam, Datalab of Datahub

Zodra data science zicht ontpopt tot een serieuze business, is het zaak om op zoek te gaan naar potentiële synergievoordelen. Opschalen van de activiteiten, het werven en selecteren van data science talent en het delen van kennis zijn dan reële opties.

Veel cursisten geven aan dat ze hierbij al snel aanlopen tegen een krappe arbeidsmarkt. Data scientists zijn schaars en daardoor duur. Desondanks gaan organisaties op zoek naar mogelijkheden om data science in of aan de rand van de organisatie een min of meer formele status te geven. Globaal kun je hierbij denken aan het formeren van een Datateam, de oprichting van een Data Lab, of het oprichten van een Data Hub.

  • Hoe je een Datateam samenstelt luistert nog wel nauw. Vermijd een monocultuur door diversiteit in het team aan te brengen.
  • Een Data Hub is volgens een bekende storageleverancier een moderne, data-centrische architectuur voor storage. De datahub ondersteunt analytics en AI door bedrijven in staat te stellen data te consolideren en te delen in de “data-first wereld” waarin we tegenwoordig leven. In tegenstelling tot datalakes en traditionele DAS-architecturen die primair ontwikkeld zijn om data op te slaan, is een datahub ontwikkeld om data te delen.
  • Gemeente Amsterdam bijvoorbeeld kiest voor een hele praktische benadering. In de hoofdstad is een datalab een werkplaats, een kenniscentrum en open podium voor data professionals en een in data geïnteresseerd publiek. Een plek voor slim, innovatief en zorgvuldig datagebruik.

Ik wil de opgedane kennis en vaardigheden van de opleiding gebruiken om de organisatie te kunnen overtuigen van het nut en de noodzaak van een Data Science-project.

Hoe je data science ook inbedt in de organisatie, het delen van data is een trend, ook binnen de overheid.

7. Verdiep je in de ethische gedragscodes en pas de FAIR-principes toe

Zo verkent het ministerie van EZK momenteel de mogelijkheden om het gebruik van de internationaal geverifieerde en geaccepteerde FAIR-principes bij het delen van private data voor AI-toepassingen te stimuleren. FAIR staat voor: Findable, Accessible, Interoperable, Reusable. Het ministerie van BZK stimuleert het beschikbaar stellen van overheidsinformatie voor hergebruik, onder andere via data, overheid.nl en met de verdere ontwikkeling van de API-portal developer.overheid.nl.

Een ander initiatief is de Personal Health Train, een metafoor voor het afsprakenstelsel, de architectuur en de implementatie voor het verantwoord gebruik van gezondheidsdata in AI-toepassingen. De PHT bouwt voort op de FAIR data-principes. Burgers, patiënten, zorgprofessionals of onderzoekers besturen de ‘treinen’ (algoritmen) om vragen te stellen aan de ‘stations’ (datasets) en antwoorden te krijgen. Het belangrijkste concept van de PHT is dat data niet naar het algoritme worden gebracht, maar het algoritme naar de data. De data blijven zo bij de bron, terwijl algoritmes er toch van kunnen leren.

Alle cursisten krijgen vroeg of laat te maken met de ethische kwesties die aan data science kleven. Inmiddels zijn er wereldwijd tientallen gedragscodes en principes gepubliceerd. Hoewel deze met de beste intenties zijn opgesteld, is de overlap groot en is er soms sprake van “window dressing”.

Tip: het Rathenau Instituut publiceerde enige tijd geleden een overzicht van van ethische codes en principes voor AI, waardoor je door de bomen het bos weer ziet.

8. Benut data science als een aanjager voor jouw eigen carrière

Waarom zou je je vingers willen branden aan zo’n complex en gevoelig onderwerp als data science? De persoonlijke doelstellingen, zoals uitgesproken bij de start van de opleiding Master of Data Science, geven antwoord op deze gewetensvraag. Zo onstaat een verhelderend inkijkje in de persoonlijke ambities en doelstellingen van de cursisten.

De honger naar kennis is bij alle cursisten even groot, maar ze willen unaniem ook hands-on ervaring opdoen met data science en de beschikbare tools (‘welke tools kunnen wij inzetten om data voor ons te laten werken’). Daarnaast worstelen veel cursisten met hun eigen rol in de organisatie. Ze willen concreet weten hoe je een Datateam opbouwt (‘hoe kom ik aan de juiste mensen met de juiste competenties?’), maar tegelijkertijd willen ze ook uitgroeien tot een verbindingsschakel (‘de linking pin tussen Business en IT’) en serieus worden genomen door het management (‘ik wil voldoende bagage opdoen om een goede gesprekspartner te zijn op de diverse niveaus binnen onze organisatie’).

Ik wil fungeren als de linking pin tussen de business en IT

Sommige cursisten hebben een missie zoals ‘de organisatie overtuigen van het nut en de noodzaak van een Data Science-project’, of ‘data science intern verkopen door promotie’ of ‘de juiste mindset creëren voor big data en datagedreven werken’). Hoewel de cursisten het bedrijfsbelang allemaal vooropstellen, is een enkeling ook eerlijk over de eigen, instrumentele doelen: ‘ik wil mijn CV toekomstbestendig houden.’

Conclusie

Kortom: door je te verdiepen in data science heb je al snel een streepje voor. Opeens ben jij dé expert in de organisatie. Je carrière krijgt zo een enorme boost. Dat is goed voor jouw huidige en (eventuele) toekomstige werkgever. Wil je je ook verdiepen in data science? Schrijf je dan in voor onze Master of Data Science opleiding.

Reageer op dit artikel van Eric van der Steen

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Een selectie van onze klanten

Word nu ook klant

Wil je ook klant bij ons worden? Wij helpen je maar wat graag verder met 8 data science tips (vermijd de data science valkuilen) of andere zaken waar je slimmer van wordt.

Daan van Beek, Managing Director

DAAN VAN BEEK MSc

Managing Director

neem contact met mij op

Fact sheet

Organisaties geholpen
29051
Trainingen & workshops
29052
Deelnemers opgeleid
29053
Beoordeling klanten
8,9
Consultants & docenten
29054
Kantoren
3
Jaar ervaring
14