Wat is ETL: het complete ETL proces uitgelegd, inclusief tooling

Foto Dick Pouw MBA
Auteur: Dick Pouw MBA
senior DWH consultant
Inhoudsopgave

Het extraheren van data uit systemen, het daarna transformeren en laden van de data in een nieuwe database noemen we afgekort ETL. Met zogenaamde ETL tools automatiseer je dat proces zodat je niet elke keer handmatig dit proces hoeft te doorlopen. Met ETL vul je bijvoorbeeld een data warehouse, en je migreert of kopieert je data van het ene naar het andere systeem. Het voordeel van een gestructureerd ETL proces is dat je data uit verschillende systemen bij elkaar kunt brengen en die kan opschonen, koppelen en in een structuur kan gieten die zeer geschikt is om data snel te analyseren of te bekijken. Dat is het doel van Business Intelligence ETL (BI ETL).

De beste BI ETL tools: top 10 ETL tools

Als Passionned Group voeren wij grondig onderzoek uit naar de functionaliteit van ETL software en de markt voor data-integratie oplossingen. Zoek je de beste ETL tool voor jouw situatie, dan kun je met onze ETL-guide direct een shortlist maken. Of het nu gaat om commerciële ETL tooling of open source ETL tools. Onze gids toont de ETL tools van Oracle, de SAS ETL tool, de Microsoft ETL tool (SSIS), de ETL tools van Informatica, data warehousing ETL tools en vele andere data-integratie oplossingen.

Bekijk de belangrijkste ETL software tools die op dit moment beschikbaar zijn op de markt en een behoorlijke staat van dienst hebben. Wil je deze ETL tooling met elkaar vergelijken? Download dan hier onze ETL & Data Integratie Guide 2024.

leer meer over etl tools

Wat is ETL en waar staat deze afkorting voor?

De afkorting ETL staat voor Extractie, Transformatie en Laden van data. Deze ETL betekenis leggen we uit door de afzonderlijke termen toe te lichten:

Wat is ETL?

  • Extractie: tijdens deze stap ga je data uit je bronnen selecteren, filteren en overhevelen naar een tijdelijke opslagplaats. Die kan zich in het interne geheugen van de computer bevinden of op de zogenaamde harde schijf. Een voorbeeld van een extractie is het selecteren van de orders en orderregels die gisteren nieuw zijn binnengekomen. Tijdens de extractie pas je vaak het principe van ‘change data capture’ toe, zodat je alleen data selecteert die ten opzichte van de vorige ‘load’ is toegevoegd aan de database.
  • Transformatie: hier ga je de data transformeren naar een structuur die beter geschikt is voor analyse van grote hoeveelheden data. Je gaat bijvoorbeeld van een sterk genormaliseerde structuur naar een gedenormaliseerde structuur zoals een dimensioneel model met een sterschema of sneeuwvlokschema.
  • Laden: in deze laatste stap ga je de getransformeerde ETL data permanent opslaan in een database of file. Dit kan een datawarehouse zijn, een CRM systeem waar je klantdata uit andere systemen in wilt kunnen zien of een bestand waarmee bijvoorbeeld een analist of controller een analyse wil gaat uitvoeren.

De ETL data integratie kan via en in de cloud plaatsvinden (cloud ETL) of gewoon op een ETL server in je eigen rekencentrum. Met “ETL as a service” of “SaaS ETL” maak je data-integratie op afroep beschikbaar. Je betaalt dan alleen voor het gebruik. De hoogte van de rekening die je krijgt is dan bijvoorbeeld afhankelijk van de omvang van de data, het aantal gebruikers of de duur van het ETL proces. Wat is nu de relatie tussen ETL en BI? Met BI wil je data snel kunnen monitoren en analyseren via rapporten, dashboards of algoritmes en dan heb je een solide data infrastructuur nodig die je met ETL kan maken.

Het complete ETL proces in één visual

Zoals eerder toegelicht bestaat elk ETL proces uit drie grote stappen: extractie, transformatie en laden. Er is vaak niet één proces nodig maar meerdere. Om bijvoorbeeld een datawarehouse elke nacht bij te werken heb je misschien wel tweehonderd ETL processen nodig. Elke procesje is verantwoordelijk voor een stukje van de totale transformatie die je wilt realiseren. Duurt het totale ETL proces te lang, dan is het ’s morgens niet klaar en zijn de cijfers op je dashboard niet bijgewerkt. Het is dus zaak om te zorgen dat je ETL snel kan draaien en op tijd klaar is. Maximaal 2 uur is hier een aanvaardbare limiet. Duurt het langer, dan adviseren we je om over te stappen op realtime ETL.

Het ETL proces en de architectuur met ETL processenFiguur 1: het ETL proces en bijbehorende architectuur

Naast de stappen extractie, transformatie en laden kun je ook controles uitvoeren op de datakwaliteit. Het beste moment om die controle uit te oefenen is tussen de stappen extractie en transformatie. Heb je nog vragen over deze ETL proces uitleg? Neem dan hier contact met ons op voor een nadere toelichting of onafhankelijk ETL advies.

ETL management: data governance van a tot z

Het in goede banen leiden van alle ETL in een organisatie vindt plaats door een data manager of ETL manager. Het ETL management definiëren we als de verantwoordelijkheid voor het opstellen van datadefinities en transformaties en het beheer ervan. De manager krijgt daarbij hulp van de (freelance) ETL developer, de data architect, de databaseadministrator, de metadata beheerder en de data custodian. Deze ETL experts zorgen er samen voor dat de ETL processen goed gedocumenteerd worden en daardoor goed kunnen worden onderhouden. Vragen die verder bij ETL management van belang kunnen zijn:

Wat betekent de term ETL BI?

Deze term duidt op een relatie tussen ETL en Business Intelligence. Vanuit het vakgebied BI wil je kunnen beschikken over een deugdelijke data infrastructuur die je in staat stelt om snel en flexibel rapporten en dashboards te bouwen, en data vlot te analyseren. ETL heb je dus nodig voor data analytics en BI.

Wat is een ETL database?

Aan het einde van het ETL proces moet je de data opslaan in een database. Een dergelijke database noem je ETL database en in het geval van een datawarehouse noem je dat een ETL datawarehouse.

Wat wordt bedoeld met een ETL datawarehouse of datawarehousing ETL?

Met ETL tools kun je op een modelmatige manier een datawarehouse ontwikkelen zodat het ETL proces real-time, dagelijks of wekelijks wordt bijgewerkt.

Wat doet een freelance ETL developer of ETL specialist?

Een (freelance) ETL developer of specialist ontwikkelt programma’s om het totale ETL proces geautomatiseerd te kunnen laten verlopen. Vaak gebruiken ze hier ETL tools voor, maar tegenwoordig ook steeds vaker datawarehouse automation tools.

Wat is het uurtarief van een freelance ETL developer?

Het gemiddelde uurtarief voor een freelance ETL developer varieert tussen de 80 en de 125 euro , afhankelijk van de senioriteit en de gevraagde skills en ervaring. Neem hier contact met ons op voor de inhuur van een freelance ETL developer of data engineer.

Wat betekent het dat je ETL compliance moet nastreven?

Vooral wanneer je ETL gebruikt voor het vullen van een datawarehouse waarmee je dashboards en rapporten bijwerkt is het noodzakelijk om te kunnen aantonen dat in het totale ETL proces geen fouten zitten. Een auditor of accountant moet ervan uit kunnen gaan dat de cijfers compleet zijn en op een correcte manier worden opgebouwd. ETL compliance heb je dus nodig om aan je accountant aan te tonen dat je op een correcte manier managementinformatie genereert.

Wat is ETL metadata management?

Metadata beschrijft de data in je ETL database. Die metadata moet je op een goede manier vastleggen en beheren. Je legt zo definities vast van (berekende) velden en op die manier kun je snel impactanalyses uitvoeren en data lineage toepassen. Met een impact analyse kun je via ETL metadata management makkelijk achterhalen waar welke velden in het ETL proces zijn gebruikt. Met data lineage kun je achterhalen hoe een berekening van een KPI op je dashboard (bijvoorbeeld winstgevendheid of netto marge) is opgebouwd en welke velden daarvoor allemaal zijn gebruikt.

De ETL & Data Integratie Guide™ 2024 Afbeelding van De ETL & Data Integratie Guide™ 2024Ontsluit snel veel direct toepasbare kennis over ETL, big data en data integratie en maak snel een shortlist van de ETL tools die voldoen aan jouw criteria. Een 100% onafhankelijk onderzoek dat actuele inzichten, onweerlegbare feiten en 500 grafieken bevat.Kies de juiste tools met de ETL & Data Integratie Guide™

Welke ETL topics zijn nog meer van belang?

Een vraag die klanten ons vaak stellen heeft te maken met open source ETL. Wat zijn de mogelijkheden en onmogelijkheden van een open source ETL tool, welke tools zijn er op de markt en wat zijn de kosten ten opzichte van commerciële ETL software? Andere topics die bij ETL een belangrijke rol spelen zijn: connectiviteit naar je bronsystemen, data governance, data mappings, data pipelines, scheduling van ETL taken, datakwaliteit management, datareplicatie en master data management.

Wat zijn Big Data ETL tools?

Wat zijn Big Data ETL tools?Big Data en ETL hebben aan elkaar moeten wennen. De ETL tools van tien jaar geleden waren niet, of heel slecht, in staat om ongestructureerde data zoals video’s, geluidsfragmenten of sensordata te verwerken. Tegenwoordig kunnen bijna alle ETL tools big data verwerken en die opslaan in een data lake (bron: de ETL & Data Integratie Guide 2024). Ook kan ETL een data lake als bron gebruiken om bijvoorbeeld een tabel te vullen met het aantal tweets dat een bedrijf per dag verstuurt. Het (real-time) combineren van gestructureerde data uit een datawarehouse en ongestructureerde data uit een data lake blijft nog steeds een grote uitdaging. Alleen zeer ervaren ETL experts kunnen je daarbij helpen. Data integratie oplossingen die beide soorten data correct kunnen verwerken en combineren krijgen in onze gids het predicaat ‘Big Data ETL tools’. Big betekent hier niet alleen dat het gaat om grote hoeveelheden data, maar ook om complexe data zoals video’s, documenten en geluidsfragmenten.

Volg hier onze online ETL training

In onze ETL & Data Integratie Guide leer je niet alleen alle ETL tools goed kennen, maar kun je ook een eigen ETL matrix samenstellen met de self-service analyse module. Daarnaast bevat onze ETL-guide een trainingsmodule waarmee je de belangrijkste concepten op het vlak van ETL en data integratie leert doorgronden.

Maak van je ETL geen spaghetti

ETL is een complexe aangelegenheid en binnen no-time zit je opgescheept met een enorme bak aan spaghetti die je nauwelijks kunt ontwarren. Onze ervaren ETL specialisten helpen je graag bij het opzetten van een toekomstbestendige datainfrastructuur en ETL processen. Neem hier contact met ons op voor de inhuur van een ETL expert en vraag een offerte aan.

Over Passionned Group

Logo Passionned Group, de specialist in ETL & data integratie vraagstukkenPassionned Group is de ETL specialist die organisaties helpt om een datagedreven organisatie te realiseren. Onze gedreven ETL specialisten staan je graag met raad en daad terzijde bij de vraagstukken rondom data integratie, BI en AI.

neem contact met ons op

Onze ETL specialisten

Bekijk het handboek Artificial Intelligence

Productafbeelding van het handboek Artificial Intelligence