Thanks to visit codestin.com
Credit goes to www.datacamp.com

Accéder au contenu principal

Tutoriel BigQuery pour débutants : de la configuration à votre première requête

Découvrez ce qu’est BigQuery, comment il fonctionne, en quoi il diffère des entrepôts de données traditionnels, et comment utiliser la console BigQuery pour interroger des jeux de données publics fournis par Google.
Actualisé 21 mai 2026  · 9 min lire

J’ai découvert le big data il y a plus de 10 ans en tant qu’ingénieur logiciel dans l’AdTech. À l’époque, les volumes de données ont commencé à croître très vite et à exploser. C’était une formidable opportunité, mais aussi un défi. Tout à coup, des requêtes censées répondre à des questions de reporting simples mais cruciales prenaient des heures.

Pour y faire face, j’ai commencé à utiliser des bases de données orientées colonnes comme BigQuery dès 2013. Hébergées dans le cloud, elles nous ont permis d’exécuter des charges analytiques de façon performante et économique, tout en ajustant les ressources à la demande. Ces dernières années, j’ai dirigé une grande équipe d’ingénieurs données qui a construit un entrepôt BigQuery de plus de 10 PB pour suivre l’expansion rapide d’un catalogue de produits pour la maison et répondre à des besoins analytiques croissants.

Aujourd’hui, en tant que CTO de DataCamp, je pilote des équipes d’ingénierie et de contenu qui aident nos utilisateurs à apprendre et à pratiquer précisément ces compétences (entre bien d’autres). Je suis convaincu que des entrepôts de données cloud comme BigQuery peuvent rendre de nombreux workflows bien plus efficaces. C’est pourquoi je souhaite partager mon expérience avec vous dans ce tutoriel.

Dans ce guide, vous allez découvrir ce qu’est BigQuery, comment il fonctionne, et en quoi il diffère des entrepôts de données traditionnels. Vous apprendrez à utiliser la console BigQuery pour interroger des jeux de données publics fournis par Google, avec un exemple pratique d’interrogation de Google Trends pour analyser les sujets populaires.

TL;DR

  • BigQuery est l’entrepôt de données entièrement géré et sans serveur de Google Cloud, qui vous permet d’interroger des pétaoctets de données avec du SQL standard
  • Il sépare le stockage du calcul, ce qui permet à chacun de monter en charge indépendamment, sans gestion d’infrastructure
  • La sandbox gratuite offre 1 TiB de requêtes par mois et l’accès aux jeux de données publics, sans carte bancaire
  • BigQuery utilise un format de stockage en colonnes optimisé pour les charges analytiques (OLAP), à la différence des bases OLTP orientées lignes
  • BigQuery ML permet de créer et déployer des modèles de machine learning directement dans l’entrepôt en SQL

Qu’est-ce que BigQuery ?

BigQuery est un entrepôt de données entièrement géré et sans serveur, développé par Google pour stocker et analyser des données à grande échelle. Les organisations l’utilisent pour exécuter des requêtes analytiques sur des pétaoctets de données en SQL, sans gérer d’infrastructure.

Vous pouvez interagir avec BigQuery via la console Google Cloud, l’outil en ligne de commande bq, ou des bibliothèques clientes pour Python, Java, Go, Node.js, C#, PHP et Ruby.

BigQuery inclut également des fonctionnalités de machine learning intégrées (BigQuery ML), qui permettent de créer et d’exécuter des modèles de ML directement dans l’entrepôt en SQL. Vous pouvez aussi importer des modèles entraînés ailleurs depuis Vertex AI ou d’autres frameworks.

Ce tutoriel s’adresse aux data analysts, data engineers et administrateurs d’entrepôts de données qui débutent sur BigQuery. Pour aller plus loin ensuite, notre cours Introduction to BigQuery couvre l’optimisation des requêtes et des workflows avancés. Vous pouvez aussi consulter notre guide BigQuery Sandbox et le tutoriel complet sur l’entreposage de données sur GCP

Entrepôt de données traditionnel vs cloud

Un entrepôt de données traditionnel est déployé on-premise, avec généralement des coûts initiaux élevés, une équipe expérimentée pour le gérer et une planification rigoureuse pour absorber la montée en charge, en raison de la rigidité du dimensionnement des ressources en datacenter.

À l’inverse, un entrepôt de données cloud est géré et hébergé par un fournisseur de services cloud. Parmi les exemples : Google BigQuery, Amazon Redshift et Snowflake.

Avantages des entrepôts de données cloud

En général, un entrepôt de données cloud présente plusieurs avantages par rapport aux entrepôts traditionnels :

  • Ils sont conçus pour l’échelle et tirent parti de la flexibilité du cloud
  • Ils offrent de meilleures vitesses et de meilleures performances
  • Une tarification flexible et un environnement cloud permettent d’optimiser les coûts (p. ex. : réduire la capacité en période de faible demande)
  • Ils peuvent être totalement ou partiellement managés, ce qui réduit les coûts opérationnels.

Bases orientées lignes vs orientées colonnes

Exemple de base orientée lignes :

image20.jpg

Exemple de base orientée colonnes :

image17.png

Les bases orientées lignes excellent pour récupérer des enregistrements complets, insérer des lignes et effectuer des mises à jour. En revanche, elles peinent face aux charges analytiques.

Par exemple, si vous interrogez trois colonnes d’une table qui en comporte 50, une base orientée lignes lit malgré tout les 50 colonnes pour chaque ligne. Une base orientée colonnes ne lit que les trois colonnes nécessaires, ce qui est bien plus rapide pour l’analytique, comme la prévision produit ou le reporting ad hoc.

Les bases orientées lignes conviennent généralement au traitement des transactions en ligne (OLTP), tandis que les bases orientées colonnes sont adaptées à l’analyse en ligne (OLAP).

OLTP vs OLAP

  • L’OLTP désigne un type de système de base de données utilisé dans les applications transactionnelles. « En ligne » signifie que ces systèmes doivent répondre aux demandes des utilisateurs et les traiter en temps réel (c’est-à-dire traiter des transactions).
  • Ce terme s’oppose à l’OLAP, qui se concentre sur l’analyse des données.

Résumé de la comparaison :

 

Base orientée lignes

Base orientée colonnes

Stockage

Par ligne

Par colonne

Récupération des données

Enregistrements complets

Colonnes pertinentes

Application typique

OLTP

OLAP

Opérations rapides

Insertion, mises à jour, recherches

Requêtes pour le reporting

Chargement des données

Généralement enregistrements unitaires

Généralement par lot

Options populaires

Postgres, MySQL, Oracle, Microsoft SQL Server

Snowflake, Google BigQuery, Amazon Redshift

Comment fonctionne BigQuery ?

BigQuery sépare le moteur de calcul du stockage, ce qui permet à chacun de monter en charge indépendamment. Résultat : vous pouvez interroger des téraoctets de données en quelques secondes et des pétaoctets en quelques minutes.

Lors de l’exécution d’une requête, le moteur de BigQuery distribue le travail en parallèle, parcourt les tables pertinentes en stockage, fusionne les résultats et renvoie l’ensemble final de données.

image13.png

Fonctionnalités clés de BigQuery en 2026

Depuis son lancement, Google a ajouté plusieurs fonctionnalités qui étendent BigQuery au-delà d’un entrepôt de données classique :

  • BigQuery ML — Créez, entraînez et déployez des modèles de machine learning en SQL. Prend en charge la régression linéaire, la classification, la prévision de séries temporelles, et plus encore.
  • Gemini in BigQuery — Une assistance IA pour écrire des requêtes, comprendre des schémas et générer des insights à partir du langage naturel.
  • BigQuery Studio — Un espace de travail unifié pour SQL, notebooks Python et Spark au sein de la console BigQuery.
  • Requêtes fédérées — Interrogez des données dans Cloud SQL, Cloud Storage, Bigtable et d’autres sources sans les déplacer vers BigQuery.
  • BigQuery Omni — Exécutez des analyses BigQuery sur des données stockées dans AWS ou Azure sans les copier vers Google Cloud.

Comment démarrer avec BigQuery

La sandbox BigQuery vous permet d’essayer BigQuery sans renseigner de carte bancaire ni créer de compte de facturation. Dans cette section, je vous explique comment accéder à BigQuery et configurer votre premier projet avec la sandbox.

BigQuery est accessible via la console Google Cloud. Vous devrez vous connecter avec un compte Google (ou en créer un). Une fois connecté, un écran de bienvenue s’affiche :

image4.png

Vous trouverez BigQuery dans le menu de gauche. En cliquant, vous arrivez sur l’écran ci-dessous :

image1.png

Utiliser la sandbox BigQuery

Pour utiliser la sandbox BigQuery, commencez par créer un projet en cliquant sur « Select Project ».

image14.png

Puis cliquez sur « New Project » :

image3.png

Vous devez fournir un nom de projet ; pour ce guide, nous utilisons datacamp-guide-project

image7.png

Un message de sandbox s’affiche désormais sur la page BigQuery, confirmant que la sandbox a bien été activée.

image16.png

Avec la sandbox BigQuery activée, vous pouvez utiliser votre nouveau projet pour charger et interroger des données, ainsi que pour interroger les jeux de données publics de Google.

Créer un dataset et une table

Avant de créer une table, vous devez créer un dataset dans votre nouveau projet. Un dataset est un conteneur de premier niveau utilisé pour organiser et contrôler l’accès à un ensemble de tables et de vues. Pour créer un dataset, cliquez sur l’icône « Actions » du projet :

image18.png

Pour les besoins de ce guide, renseignez « Dataset ID » avec « main ».

image8.png

Vous pouvez créer une table en SQL. BigQuery utilise GoogleSQL, conforme à la norme ANSI.

CREATE TABLE datacamp-guide-project.main.users (
  id INT64 NOT NULL,
  first_name STRING NOT NULL,
  middle_name STRING,
  last_name STRING NOT NULL,
  active_account BOOL NOT NULL
);

Vous pouvez aussi utiliser l’interface de la console BigQuery :

image19.png

Remarque : il n’est pas possible d’insérer des données dans l’environnement sandbox. Si vous souhaitez essayer l’insertion de données, vous devez activer l’essai gratuit. Les sections suivantes se concentrent sur l’interrogation des jeux de données publics proposés dans Google Cloud.

Interroger un jeu de données public via la console BigQuery

Pour interroger un jeu de données public, suivez les étapes ci-dessous :

1. Cliquez sur « Add » à côté d’Explorer.

image10.png

2. Choisissez ensuite un jeu de données.

image2.png

3. Recherchez « Google Trends » et sélectionnez Google Trends, puis cliquez sur le bouton « View dataset ».

image6.png

4. bigquery-public-data apparaît avec une longue liste de jeux de données. Ajoutez bigquery-public-data aux favoris (étoile) pour qu’il reste épinglé dans l’explorateur

image5.png

Nous allons utiliser la table top_terms :

image12.png

Cliquez sur la table top_terms pour l’ouvrir, puis consultez les onglets Details et Preview afin d’en savoir plus sur les données de top_terms.

image9.png

image21.png

Vous pouvez interroger le dataset ; par exemple, pour récupérer les termes classés en première position au cours des deux dernières semaines :

SELECT
  term
FROM
  bigquery-public-data.google_trends.top_terms
WHERE
  rank = 1
  AND refresh_date >= DATE_SUB(CURRENT_DATE(), INTERVAL 2 WEEK)
GROUP BY
  term

Résultats (variables) :

image11.png

Tarification de BigQuery

La tarification de BigQuery repose sur deux composantes principales : le calcul (exécution des requêtes) et le stockage.

Composante Offre gratuite Tarification payante
Requêtes à la demande 1 TiB par mois 6,25 $ par TiB
Stockage (actif) 10 GiB 0,02 $ par GiB/mois
Stockage (long terme) 10 GiB 0,01 $ par GiB/mois
Insertions en streaming N/A 0,05 $ par 200 Mo

Pour les équipes aux charges prévisibles, BigQuery propose aussi une tarification forfaitaire via des réservations de capacité (BigQuery Editions). Consultez la page de tarification officielle pour les tarifs à jour.

En conclusion

BigQuery est l’un des points d’entrée les plus accessibles vers l’entreposage de données dans le cloud. La sandbox offre un environnement sans risque pour expérimenter, et l’allocation gratuite de 1 TiB de requêtes par mois vous permet d’explorer des jeux de données publics sans rien dépenser. Quand vous aurez besoin de plus, l’essai gratuit de Google Cloud offre 300 $ de crédits.

Pour approfondir ce que vous avez appris ici, je vous recommande le cours Introduction to BigQuery sur DataCamp, qui couvre l’optimisation des requêtes et la manipulation de jeux de données plus volumineux. Pour une vision plus large du data engineering, le parcours Data Engineer in Python couvre l’ensemble du pipeline, de l’ingestion à l’entreposage.

Vous pouvez aussi comparer BigQuery à d’autres solutions dans nos analyses BigQuery vs Redshift et BigQuery vs Snowflake, ou vous préparer aux entretiens avec notre guide BigQuery interview questions.


Eduardo Oliveira's photo
Author
Eduardo Oliveira
Codestin Search App

DataCamp Chief Technology Officer et General Manager of Learning Platform. Dans le cadre de mes fonctions, je dirige les équipes chargées de mettre au point la technologie et le programme d'études qui alimentent l'expérience des apprenants de DataCamp.

Sujets

Commencez le data engineering dès aujourd’hui !

Cursus

Ingénieur de données associé en SQL

30 h
Apprenez les principes fondamentaux de l'ingénierie des données : conception de bases de données et entreposage de données, en travaillant avec des technologies telles que PostgreSQL et Snowflake !
Afficher les détailsCodestin Search App
Commencer le cours
Voir plusCodestin Search App
Contenus associés

blog

Architecture de l'entrepôt de données : Tendances, outils et techniques

Apprenez l'essentiel de l'architecture d'un entrepôt de données, des composants clés aux meilleures pratiques, pour construire un système de données évolutif et efficace !
Kurtis Pykes 's photo

Kurtis Pykes

15 min

blog

Les 50 questions et réponses les plus fréquentes lors d'entretiens d'embauche chez AWS pour 2026

Un guide complet pour explorer les questions d'entretien AWS de niveau débutant, intermédiaire et avancé, ainsi que des questions basées sur des situations réelles.
Zoumana Keita 's photo

Zoumana Keita

15 min

Tutoriel

Tutoriel Python sur les structures de données

Initiez-vous aux structures de données de Python : apprenez-en plus sur les types de données et les structures de données primitives et non primitives, telles que les chaînes de caractères, les listes, les piles, etc.
Sejal Jaiswal's photo

Sejal Jaiswal

Tutoriel

Python Switch Case Statement : Guide du débutant

Découvrez le match-case de Python : un guide sur sa syntaxe, ses applications en data science, ML, et une analyse comparative avec le switch-case traditionnel.
Matt Crabtree's photo

Matt Crabtree

cursor ai code editor

Tutoriel

Cursor AI : Un guide avec 10 exemples pratiques

Apprenez à installer Cursor AI sur Windows, macOS et Linux, et découvrez comment l'utiliser à travers 10 cas d'utilisation différents.

Tutoriel

Normalisation vs. Standardisation: comment faire la différence

Découvrez les principales différences, les applications et la mise en œuvre de la normalisation et de la standardisation dans le prétraitement des données pour l’apprentissage automatique.
Samuel Shaibu's photo

Samuel Shaibu

Voir plusVoir plus