Thanks to visit codestin.com
Credit goes to www.datacamp.com

Chuyển đến nội dung chính

Hướng dẫn BigQuery cho người mới bắt đầu: Từ thiết lập đến truy vấn đầu tiên

Tìm hiểu BigQuery là gì, cách hoạt động, khác gì so với kho dữ liệu truyền thống, và cách dùng bảng điều khiển BigQuery để truy vấn các tập dữ liệu công khai do Google cung cấp.
Đã cập nhật 21 thg 5, 2026  · 9 phút đọc

Tôi bắt đầu tiếp xúc với big data hơn 10 năm trước khi còn là kỹ sư phần mềm làm trong lĩnh vực Ad-Tech. Khi đó, dữ liệu tăng trưởng rất nhanh và bùng nổ về quy mô. Đây vừa là cơ hội lớn vừa là thách thức. Các truy vấn để trả lời những câu hỏi báo cáo cơ bản nhưng quan trọng bỗng mất hàng giờ.

Để ứng phó, tôi bắt đầu sử dụng cơ sở dữ liệu hướng cột như BigQuery từ năm 2013. Vì dựa trên đám mây, chúng cho phép chúng tôi chạy tải phân tích hiệu năng cao, tiết kiệm chi phí và mở rộng tài nguyên khi cần. Vài năm gần đây, tôi dẫn dắt một đội ngũ kỹ sư dữ liệu lớn xây dựng kho dữ liệu BigQuery hơn 10 PB để theo kịp danh mục sản phẩm đồ gia dụng tăng trưởng nhanh và nhu cầu phân tích ngày càng nhiều.

Hiện là CTO của DataCamp, tôi dẫn dắt các đội kỹ thuật và nội dung giúp người dùng học và thực hành chính những kỹ năng này (cùng nhiều kỹ năng khác). Tôi tin rằng các kho dữ liệu đám mây như BigQuery có thể làm nhiều quy trình hiệu quả hơn hẳn. Vì vậy tôi muốn chia sẻ trải nghiệm của mình trong hướng dẫn này.

Trong tài liệu này, bạn sẽ học BigQuery là gì, cách hoạt động và khác gì so với các kho dữ liệu truyền thống. Bạn sẽ học cách dùng bảng điều khiển BigQuery để truy vấn các tập dữ liệu công khai do Google cung cấp, với ví dụ thực tế về cách truy vấn Google Trends để tìm hiểu các chủ đề thịnh hành.

Tóm tắt nhanh

  • BigQuery là kho dữ liệu được quản lý toàn phần, không máy chủ của Google Cloud cho phép bạn truy vấn petabyte dữ liệu bằng SQL chuẩn
  • BigQuery tách lưu trữ khỏi tính toán, nên mỗi phần mở rộng độc lập mà không cần quản lý hạ tầng
  • Sandbox miễn phí cho bạn 1 TiB truy vấn mỗi tháng và quyền truy cập tập dữ liệu công khai, không cần thẻ tín dụng
  • BigQuery dùng định dạng lưu trữ dạng cột tối ưu cho tải công việc phân tích (OLAP), khác với cơ sở dữ liệu OLTP hướng hàng
  • BigQuery ML cho phép xây dựng và triển khai mô hình học máy trực tiếp trong kho bằng SQL

BigQuery là gì?

BigQuery là kho dữ liệu được quản lý toàn phần, không máy chủ do Google phát triển để lưu trữ và phân tích dữ liệu ở quy mô lớn. Các tổ chức sử dụng BigQuery để chạy truy vấn phân tích trên petabyte dữ liệu bằng SQL mà không phải quản lý hạ tầng.

Bạn có thể tương tác với BigQuery qua bảng điều khiển Google Cloud, công cụ dòng lệnh bq, hoặc thư viện khách cho Python, Java, Go, Node.js, C#, PHP và Ruby.

BigQuery cũng bao gồm học máy tích hợp (BigQuery ML), cho phép bạn tạo và chạy mô hình ML trực tiếp trong kho bằng SQL. Bạn cũng có thể nhập các mô hình huấn luyện bên ngoài từ Vertex AI hoặc các framework khác.

Hướng dẫn này dành cho nhà phân tích dữ liệu, kỹ sư dữ liệu và quản trị kho dữ liệu mới bắt đầu với BigQuery. Nếu muốn học sâu hơn, khóa Giới thiệu về BigQuery của chúng tôi đề cập tối ưu hóa truy vấn và quy trình nâng cao. Bạn cũng có thể xem hướng dẫn BigQuery Sandboxhướng dẫn toàn diện về kho dữ liệu GCP.

Kho dữ liệu truyền thống và kho dữ liệu đám mây

Một kho dữ liệu truyền thống được triển khai on-premise, thường đòi hỏi chi phí đầu tư ban đầu cao, một đội ngũ có kỹ năng để vận hành, và lập kế hoạch phù hợp nhằm đáp ứng nhu cầu tăng trưởng do khả năng mở rộng tài nguyên cứng nhắc của trung tâm dữ liệu truyền thống.

Ngược lại, kho dữ liệu đám mây được nhà cung cấp dịch vụ đám mây lưu trữ và quản lý. Ví dụ gồm Google BigQuery, Amazon RedshiftSnowflake.

Ưu điểm của kho dữ liệu đám mây

Thông thường, kho dữ liệu đám mây có một số ưu điểm so với kho dữ liệu truyền thống:

  • Được xây dựng để mở rộng và tận dụng tính linh hoạt của môi trường đám mây
  • Tốc độ và hiệu năng được cải thiện
  • Giá linh hoạt và môi trường đám mây cho phép tối ưu chi phí (ví dụ: giảm quy mô khi nhu cầu thấp)
  • Có thể được quản lý toàn phần hoặc một phần, giúp giảm chi phí vận hành.

Cơ sở dữ liệu hướng hàng và hướng cột

Ví dụ cơ sở dữ liệu hướng hàng:

image20.jpg

Ví dụ cơ sở dữ liệu hướng cột:

image17.png

Cơ sở dữ liệu hướng hàng hoạt động tốt cho tra cứu toàn bộ hàng, chèn bản ghi và cập nhật. Nhưng chúng gặp khó với tải công việc phân tích.

Ví dụ, nếu bạn truy vấn ba cột từ một bảng có 50 cột, cơ sở dữ liệu hướng hàng vẫn đọc cả 50 cột cho mỗi hàng. Cơ sở dữ liệu hướng cột chỉ đọc ba cột bạn cần, nhanh hơn nhiều cho các tác vụ phân tích như dự báo sản phẩm hoặc báo cáo ad-hoc.

Cơ sở dữ liệu hướng hàng thường phù hợp với xử lý giao dịch trực tuyến (OLTP), còn cơ sở dữ liệu hướng cột phù hợp cho xử lý phân tích trực tuyến (OLAP).

OLTP và OLAP

  • OLTP là loại hệ thống cơ sở dữ liệu dùng trong các ứng dụng hướng giao dịch. "Trực tuyến" nghĩa là hệ thống được kỳ vọng phản hồi yêu cầu người dùng và xử lý theo thời gian thực (tức là xử lý giao dịch).
  • Thuật ngữ này đối lập với xử lý phân tích trực tuyến (OLAP), vốn tập trung vào phân tích dữ liệu.

Tóm tắt so sánh:

 

Cơ sở dữ liệu hướng hàng

Cơ sở dữ liệu hướng cột

Lưu trữ

Theo hàng

Theo cột

Truy xuất dữ liệu

Bản ghi đầy đủ

Các cột liên quan

Ứng dụng điển hình

OLTP

OLAP

Tác vụ nhanh

Chèn, cập nhật, tra cứu

Truy vấn phục vụ báo cáo

Nạp dữ liệu

Thường từng bản ghi một

Thường theo lô

Tùy chọn phổ biến

Postgres, MySQL, Oracle, Microsoft SQL Server

Snowflake, Google BigQuery, Amazon Redshift

BigQuery hoạt động như thế nào?

BigQuery tách bộ máy tính toán khỏi lưu trữ, nên mỗi phần có thể mở rộng độc lập. Kết quả: bạn có thể truy vấn terabyte dữ liệu trong vài giây và petabyte trong vài phút.

Khi chạy truy vấn, BigQuery phân bổ công việc song song, quét các bảng liên quan trong lớp lưu trữ, hợp nhất kết quả và trả về tập dữ liệu cuối cùng.

image13.png

Các tính năng chính của BigQuery vào năm 2026

Kể từ khi ra mắt, Google đã bổ sung nhiều tính năng giúp BigQuery vượt ra ngoài một kho dữ liệu truyền thống:

  • BigQuery ML — Xây dựng, huấn luyện và triển khai mô hình học máy bằng SQL. Hỗ trợ hồi quy tuyến tính, phân loại, dự báo chuỗi thời gian và nhiều hơn nữa.
  • Gemini trong BigQuery — Trợ lý AI hỗ trợ viết truy vấn, hiểu lược đồ và tạo insight dữ liệu bằng ngôn ngữ tự nhiên.
  • BigQuery Studio — Không gian làm việc hợp nhất cho SQL, notebook Python và Spark ngay trong bảng điều khiển BigQuery.
  • Truy vấn liên kết (Federated queries) — Truy vấn dữ liệu trong Cloud SQL, Cloud Storage, Bigtable và các nguồn khác mà không cần di chuyển vào BigQuery.
  • BigQuery Omni — Chạy phân tích BigQuery trên dữ liệu lưu trữ ở AWS hoặc Azure mà không cần sao chép sang Google Cloud.

Bắt đầu với BigQuery như thế nào

Sandbox của BigQuery cho phép bạn thử BigQuery mà không cần cung cấp thẻ tín dụng hay tạo tài khoản thanh toán. Phần này tôi sẽ hướng dẫn cách truy cập BigQuery và thiết lập dự án đầu tiên bằng sandbox.

Bạn có thể truy cập BigQuery qua Google Cloud Console. Bạn cần đăng nhập bằng tài khoản Google (hoặc tạo một tài khoản). Sau khi đăng nhập, màn hình chào mừng sẽ xuất hiện:

image4.png

Bạn có thể tìm BigQuery ở thanh menu bên trái. Nhấp vào sẽ đưa bạn đến màn hình dưới đây:

image1.png

Sử dụng BigQuery sandbox

Để dùng BigQuery sandbox, trước tiên hãy tạo một dự án bằng cách nhấp vào ‘Select Project’.

image14.png

Sau đó nhấp ‘New Project’:

image3.png

Bạn cần cung cấp tên dự án; trong hướng dẫn này, chúng tôi dùng datacamp-guide-project

image7.png

Một thông báo sandbox giờ sẽ hiển thị trên trang BigQuery, cho thấy bạn đã bật BigQuery sandbox thành công.

image16.png

Khi sandbox BigQuery đã bật, bạn có thể dùng dự án mới để nạp dữ liệu và truy vấn, cũng như truy vấn các tập dữ liệu công khai của Google.

Tạo dataset và bảng

Trước khi tạo bảng, bạn cần tạo một dataset trong dự án mới. Dataset là vùng chứa cấp cao dùng để tổ chức và kiểm soát quyền truy cập cho một tập bảng và view. Để tạo dataset, nhấp vào biểu tượng ‘Actions’ của dự án:

image18.png

Trong phạm vi hướng dẫn này, chúng ta sẽ điền ‘Dataset ID’ là ‘main’.

image8.png

Bạn có thể tạo bảng bằng SQL. BigQuery sử dụng GoogleSQL, tuân thủ ANSI.

CREATE TABLE datacamp-guide-project.main.users (
  id INT64 NOT NULL,
  first_name STRING NOT NULL,
  middle_name STRING,
  last_name STRING NOT NULL,
  active_account BOOL NOT NULL
);

Bạn cũng có thể dùng giao diện BigQuery Console:

image19.png

Lưu ý: Không thể chèn dữ liệu khi ở môi trường sandbox. Nếu muốn thử chèn dữ liệu, bạn cần bật gói dùng thử miễn phí. Các phần tiếp theo tập trung vào truy vấn các tập dữ liệu công khai do Google Cloud cung cấp.

Truy vấn tập dữ liệu công khai bằng BigQuery Console

Để truy vấn tập dữ liệu công khai, làm theo các bước sau:

1. Nhấp ‘Add’ cạnh Explorer.

image10.png

2. Sau đó, chọn một tập dữ liệu.

image2.png

3. Tìm ‘Google Trends’ và chọn Google Trends, rồi nhấp nút ‘View dataset’.

image6.png

4. bigquery-public-data sẽ xuất hiện với một danh sách dài các tập dữ liệu. Gắn sao bigquery-public-data để nó “ghim” trong explorer

image5.png

Chúng ta sẽ dùng bảng top_terms:

image12.png

Nhấp vào bảng top_terms để mở, và xem phần Details và Preview để tìm hiểu thêm về dữ liệu top_terms.

image9.png

image21.png

Bạn có thể truy vấn tập dữ liệu, ví dụ bên dưới để lấy các thuật ngữ xếp hạng vị trí đầu tiên trong hai tuần gần đây:

SELECT
  term
FROM
  bigquery-public-data.google_trends.top_terms
WHERE
  rank = 1
  AND refresh_date >= DATE_SUB(CURRENT_DATE(), INTERVAL 2 WEEK)
GROUP BY
  term

Kết quả (sẽ thay đổi):

image11.png

Giá BigQuery

Giá BigQuery có hai thành phần chính: tính toán (xử lý truy vấn) và lưu trữ.

Thành phần Giới hạn miễn phí Giá trả phí
Truy vấn theo nhu cầu 1 TiB mỗi tháng $6.25 mỗi TiB
Lưu trữ (hoạt động) 10 GiB $0.02 mỗi GiB/tháng
Lưu trữ (dài hạn) 10 GiB $0.01 mỗi GiB/tháng
Chèn dữ liệu dạng streaming Không áp dụng $0.05 mỗi 200 MB

Với các đội có khối lượng công việc dự đoán được, BigQuery cũng cung cấp giá cố định thông qua đặt chỗ dung lượng (BigQuery Editions). Hãy xem trang giá chính thức để biết mức giá hiện tại.

Kết luận

BigQuery là một trong những điểm khởi đầu dễ tiếp cận nhất để bước vào kho dữ liệu trên đám mây. Sandbox cho bạn môi trường thử nghiệm không rủi ro, và 1 TiB truy vấn miễn phí mỗi tháng giúp bạn khám phá các tập dữ liệu công khai mà không tốn chi phí. Khi cần nhiều hơn, gói dùng thử miễn phí của Google Cloud cung cấp $300 tín dụng.

Nếu muốn xây dựng tiếp từ những gì đã học ở đây, tôi khuyến nghị khóa Giới thiệu về BigQuery trên DataCamp, bao gồm tối ưu hóa truy vấn và làm việc với các tập dữ liệu lớn hơn. Ở góc nhìn rộng hơn về kỹ thuật dữ liệu, lộ trình Data Engineer in Python bao quát toàn bộ pipeline từ thu thập đến kho dữ liệu.

Bạn cũng có thể khám phá cách BigQuery so sánh với các lựa chọn thay thế trong các bài BigQuery vs RedshiftBigQuery vs Snowflake, hoặc chuẩn bị phỏng vấn với hướng dẫn câu hỏi phỏng vấn BigQuery của chúng tôi.


Eduardo Oliveira's photo
Author
Eduardo Oliveira
Codestin Search App

Giám đốc Công nghệ của DataCamp và Tổng Giám đốc Nền tảng Học tập. Trong vai trò của mình, tôi quản lý các nhóm tập trung xây dựng công nghệ cũng như chương trình giảng dạy tạo nên trải nghiệm học tập cho người dùng DataCamp.

Chủ đề

Bắt đầu với Kỹ thuật Dữ liệu ngay hôm nay!

Tracks

Kỹ sư Dữ liệu Hỗ trợ trong SQL

30 giờ
Học các kiến thức cơ bản về kỹ thuật dữ liệu: thiết kế cơ sở dữ liệu và kho dữ liệu, làm việc với các công nghệ bao gồm PostgreSQL và Snowflake!
Xem chi tiếtCodestin Search App
Bắt đầu khóa học
Xem thêmCodestin Search App
Có liên quan

blogs

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

Mô hình mới nhất của Anthropic dẫn đầu bảng xếp hạng về mã hóa theo hướng tác nhân và suy luận phức tạp. Thêm nữa, nó có cửa sổ ngữ cảnh 1M.
Matt Crabtree's photo

Matt Crabtree

10 phút

Xem thêmXem thêm