Leerpad
Mijn kennismaking met big data begon meer dan 10 jaar geleden als software-engineer in Ad-Tech. Destijds groeiden datasets razendsnel en explodeerden ze in omvang. Dat bood veel kansen, maar ook uitdagingen. Queries om simpele maar cruciale rapportagevragen te beantwoorden, duurden ineens uren.
Als reactie daarop begon ik in 2013 kolomgeoriënteerde databases zoals BigQuery te gebruiken. Doordat ze cloudgebaseerd zijn, konden we analytische workloads snel en kostenefficiënt draaien en resources opschalen indien nodig. De afgelopen jaren heb ik een groot team van data-engineers geleid dat een BigQuery-datawarehouse van meer dan 10 PB bouwde om gelijke tred te houden met een snelgroeiend assortiment woonartikelen en toenemende analytische behoeften.
Nu, als CTO van DataCamp, leid ik verschillende engineering- en contentteams die onze gebruikers helpen precies deze skills (en vele andere) te leren en te oefenen. Ik ben ervan overtuigd dat clouddatawarehouses zoals BigQuery veel workflows aanzienlijk efficiënter kunnen maken. Daarom wil ik in deze tutorial mijn ervaringen met je delen.
In deze gids leer je wat BigQuery is, hoe het werkt en waarin het verschilt van traditionele datawarehouses. Je leert hoe je de BigQuery-console gebruikt om openbare datasets van Google te bevragen, met een praktisch voorbeeld waarin we Google Trends raadplegen om populaire onderwerpen te ontdekken.
TL;DR
- BigQuery is Google Clouds volledig beheerde, serverloze datawarehouse waarmee je met standaard SQL petabytes aan data kunt bevragen
- Het scheidt opslag van compute, zodat beide onafhankelijk kunnen schalen zonder infrastructuurbeheer
- De gratis sandbox geeft je 1 TiB aan queries per maand en toegang tot openbare datasets, zonder creditcard
- BigQuery gebruikt een kolomgeoriënteerd opslagformaat dat is geoptimaliseerd voor analytische (OLAP) workloads, in tegenstelling tot rijgeoriënteerde OLTP-databases
- Met BigQuery ML kun je machinelearningmodellen direct in het warehouse bouwen en uitrollen met SQL
Wat is BigQuery?
BigQuery is een volledig beheerd, serverloos datawarehouse van Google voor het opslaan en analyseren van data op grote schaal. Organisaties gebruiken het om analytische queries uit te voeren op petabytes aan data met SQL, zonder zelf infrastructuur te beheren.
Je kunt met BigQuery werken via de Google Cloud-console, de bq-commandline-tool of clientbibliotheken voor Python, Java, Go, Node.js, C#, PHP en Ruby.
BigQuery bevat ook ingebouwde machine learning (BigQuery ML), waarmee je ML-modellen direct in het warehouse kunt maken en draaien met SQL. Je kunt ook extern getrainde modellen importeren uit Vertex AI of andere frameworks.
Deze tutorial is voor data-analisten, data-engineers en datawarehousebeheerders die met BigQuery aan de slag willen. Wil je daarna dieper duiken, dan behandelt onze Introduction to BigQuery-cursus query-optimalisatie en geavanceerde workflows. Je kunt ook onze BigQuery Sandbox-gids en de volledige GCP-datawarehousing-tutorial verkennen.
Traditioneel vs. clouddatawarehouse
Een traditioneel datawarehouse draait on-premises en vereist doorgaans hoge initiële kosten, een kundig team voor beheer en zorgvuldige planning om de groeiende vraag aan te kunnen door de rigide schaalbaarheid van traditionele datacenters.
Een clouddatawarehouse daarentegen wordt beheerd en gehost door een cloudprovider. Voorbeelden zijn Google BigQuery, Amazon Redshift en Snowflake.
Voordelen van clouddatawarehouses
Een clouddatawarehouse heeft meestal verschillende voordelen ten opzichte van traditionele datawarehouses:
- Ze zijn gebouwd voor schaal en benutten de flexibiliteit van de cloudomgeving
- Ze bieden hogere snelheid en betere prestaties
- Flexibele prijzen en een cloudomgeving maken kostenoptimalisatie mogelijk (bijv. afschalen bij lage vraag)
- Ze kunnen volledig of gedeeltelijk beheerd zijn, wat de operationele kosten verlaagt.
Rij- vs. kolomgeoriënteerde databases
Voorbeeld van een rijgeoriënteerde database:

Voorbeeld van een kolomgeoriënteerde database:

Rijgeoriënteerde databases zijn goed voor volledige rijopvragingen, het invoegen van records en updates. Maar ze hebben moeite met analytische workloads.
Als je bijvoorbeeld drie kolommen opvraagt uit een tabel met 50 kolommen, leest een rijgeoriënteerde database alsnog alle 50 kolommen voor elke rij. Een kolomgeoriënteerde database leest alleen de drie kolommen die je nodig hebt, wat veel sneller is voor analyses zoals productvoorspellingen of ad-hocrapportage.
Rijgeoriënteerde databases zijn doorgaans geschikt voor online transaction processing (OLTP) en kolomgeoriënteerde databases voor online analytical processing (OLAP).
OLTP vs. OLAP
- OLTP is een type databasesysteem dat wordt gebruikt in transactiegerichte applicaties. "Online" betekent dat zulke systemen naar verwachting in realtime op gebruikersverzoeken reageren en deze verwerken (d.w.z. transacties verwerken).
- De term staat tegenover online analytical processing (OLAP), dat zich juist richt op data-analyse.
Samenvatting van de vergelijking:
|
Rijgeoriënteerde database |
Kolomgeoriënteerde database |
||||||
|
Opslag |
Per rij |
Per kolom |
|||||
|
Data-opvraging |
Volledige records |
Relevante kolommen |
|||||
|
Typische toepassing |
OLTP |
OLAP |
|||||
|
Snelle bewerkingen |
Invoegen, updates, lookups |
Query's voor rapportagedoeleinden |
|||||
|
Data laden |
Meestal één record tegelijk |
Meestal in batch |
|||||
|
Populaire opties |
Postgres, MySQL, Oracle, Microsoft SQL Server |
Snowflake, Google BigQuery, Amazon Redshift |
|||||
Hoe werkt BigQuery?
BigQuery scheidt zijn compute-engine van opslag, zodat beide onafhankelijk kunnen schalen. Het resultaat: je kunt terabytes aan data in seconden en petabytes in minuten bevragen.
Wanneer BigQuery een query uitvoert, verdeelt de query-engine het werk parallel, scant de relevante tabellen in de opslag, voegt resultaten samen en retourneert de uiteindelijke dataset.

Belangrijkste BigQuery-functies in 2026
Sinds de lancering heeft Google verschillende functies toegevoegd die BigQuery verder laten gaan dan een traditioneel datawarehouse:
- BigQuery ML — Bouw, train en implementeer machinelearningmodellen met SQL. Ondersteunt lineaire regressie, classificatie, tijdreeksvoorspelling en meer.
- Gemini in BigQuery — AI-ondersteuning voor het schrijven van queries, het begrijpen van schema's en het genereren van datainsights met natuurlijke taal.
- BigQuery Studio — Een uniforme werkruimte voor SQL, Python-notebooks en Spark binnen de BigQuery-console.
- Gefedereerde queries — Bevraag data in Cloud SQL, Cloud Storage, Bigtable en andere bronnen zonder deze naar BigQuery te verplaatsen.
- BigQuery Omni — Draai BigQuery-analyses op data die is opgeslagen in AWS of Azure zonder deze naar Google Cloud te kopiëren.
Aan de slag met BigQuery
Met de BigQuery-sandbox kun je BigQuery uitproberen zonder een creditcard of facturatieaccount op te geven. In deze sectie laat ik zien hoe je BigQuery opent en je eerste project opzet met de sandbox.
Je kunt BigQuery openen via de Google Cloud Console. Je moet inloggen met een Google-account (of er een aanmaken). Na het inloggen verschijnt er een welkomstscherm:

Je vindt BigQuery in de linker menubalk. Als je erop klikt, kom je op het onderstaande scherm:

De BigQuery-sandbox gebruiken
Om de BigQuery-sandbox te gebruiken, maak je eerst een project aan door op ‘Select Project’ te klikken.

Klik daarna op ‘New Project’:

Je moet een projectnaam opgeven; voor deze gids gebruiken we datacamp-guide-project

Er verschijnt nu een sandboxmelding op de BigQuery-pagina, wat aangeeft dat de BigQuery-sandbox succesvol is ingeschakeld.

Nu de BigQuery-sandbox is ingeschakeld, kun je je nieuwe project gebruiken om data te laden en te bevragen, en ook Google’s openbare datasets te bevragen.
Maak een dataset en tabel
Voordat je een tabel maakt, moet je in je nieuwe project een dataset aanmaken. Een dataset is een container op het hoogste niveau om toegang tot een set tabellen en views te organiseren en te beheren. Om een dataset te maken, klik je op het ‘Actions’-icoon van het project:

Voor deze gids vullen we ‘Dataset ID’ in met ‘main’.

Je kunt een tabel maken met SQL. BigQuery gebruikt GoogleSQL, dat ANSI-conform is.
CREATE TABLE datacamp-guide-project.main.users (
id INT64 NOT NULL,
first_name STRING NOT NULL,
middle_name STRING,
last_name STRING NOT NULL,
active_account BOOL NOT NULL
);
Je kunt ook de interface van de BigQuery-console gebruiken:

Let op: Het is niet mogelijk om data in te voegen in een sandboxomgeving. Wil je data-invoer proberen, schakel dan de gratis proefperiode in. De volgende secties richten zich op het bevragen van openbare datasets die deel uitmaken van Google Cloud.
Een openbare dataset bevragen met de BigQuery-console
Volg de onderstaande stappen om een openbare dataset te bevragen:
1. Klik op ‘Add’ naast Explorer.

2. Kies vervolgens een dataset.

3. Zoek op ‘Google Trends’ en kies Google Trends, gevolgd door een klik op de knop ‘View dataset’.

4. bigquery-public-data verschijnt met een lange lijst datasets. Markeer bigquery-public-data met een ster zodat het “sticky” wordt in de explorer

Een praktisch voorbeeld met de Google Trends-dataset
We gebruiken de tabel top_terms:

Klik op de tabel top_terms om deze te openen en bekijk de tabbladen Details en Preview om meer te leren over de data in top_terms.


Je kunt de dataset bevragen; hieronder een voorbeeld om termen op te halen die in de afgelopen twee weken op de eerste plaats stonden:
SELECT
term
FROM
bigquery-public-data.google_trends.top_terms
WHERE
rank = 1
AND refresh_date >= DATE_SUB(CURRENT_DATE(), INTERVAL 2 WEEK)
GROUP BY
term
Resultaten (variëren):

BigQuery-prijzen
De prijsstelling van BigQuery heeft twee hoofdonderdelen: compute (queryverwerking) en opslag.
| Onderdeel | Gratis tier | Betaalde prijs |
|---|---|---|
| On-demand queries | 1 TiB per maand | $6.25 per TiB |
| Opslag (actief) | 10 GiB | $0.02 per GiB/maand |
| Opslag (langetermijn) | 10 GiB | $0.01 per GiB/maand |
| Streaming inserts | N.v.t. | $0.05 per 200 MB |
Voor teams met voorspelbare workloads biedt BigQuery ook flat-rate prijzen via capacity reservations (BigQuery Editions). Bekijk de officiële prijspagina voor de actuele tarieven.
Tot slot
BigQuery is een van de meest toegankelijke instappunten voor datawarehousing in de cloud. De sandbox biedt een risicovrije omgeving om te experimenteren, en met 1 TiB aan gratis queries per maand kun je openbare datasets verkennen zonder iets uit te geven. Heb je meer nodig, dan biedt de gratis proefversie van Google Cloud $300 aan tegoed.
Wil je voortbouwen op wat je hier hebt geleerd, dan raad ik de Introduction to BigQuery-cursus op DataCamp aan, die query-optimalisatie en werken met grotere datasets behandelt. Voor een breder beeld van data-engineering behandelt de Data Engineer in Python-track de volledige pijplijn van ingestie tot warehousing.
Je kunt ook verkennen hoe BigQuery zich verhoudt tot alternatieven in onze vergelijkingen BigQuery vs Redshift en BigQuery vs Snowflake, of je voorbereiden op sollicitaties met onze gids BigQuery interviewvragen.

CTO van DataCamp en General Manager van het leerplatform. In mijn rol stuur ik de teams aan die zich richten op het bouwen van de technologie én op het curriculum dat de leerervaring van DataCamp-gebruikers mogelijk maakt.
