Tracks
Tôi bắt đầu tiếp xúc với big data hơn 10 năm trước khi còn là kỹ sư phần mềm làm trong lĩnh vực Ad-Tech. Khi đó, dữ liệu tăng trưởng rất nhanh và bùng nổ về quy mô. Đây vừa là cơ hội lớn vừa là thách thức. Các truy vấn để trả lời những câu hỏi báo cáo cơ bản nhưng quan trọng bỗng mất hàng giờ.
Để ứng phó, tôi bắt đầu sử dụng cơ sở dữ liệu hướng cột như BigQuery từ năm 2013. Vì dựa trên đám mây, chúng cho phép chúng tôi chạy tải phân tích hiệu năng cao, tiết kiệm chi phí và mở rộng tài nguyên khi cần. Vài năm gần đây, tôi dẫn dắt một đội ngũ kỹ sư dữ liệu lớn xây dựng kho dữ liệu BigQuery hơn 10 PB để theo kịp danh mục sản phẩm đồ gia dụng tăng trưởng nhanh và nhu cầu phân tích ngày càng nhiều.
Hiện là CTO của DataCamp, tôi dẫn dắt các đội kỹ thuật và nội dung giúp người dùng học và thực hành chính những kỹ năng này (cùng nhiều kỹ năng khác). Tôi tin rằng các kho dữ liệu đám mây như BigQuery có thể làm nhiều quy trình hiệu quả hơn hẳn. Vì vậy tôi muốn chia sẻ trải nghiệm của mình trong hướng dẫn này.
Trong tài liệu này, bạn sẽ học BigQuery là gì, cách hoạt động và khác gì so với các kho dữ liệu truyền thống. Bạn sẽ học cách dùng bảng điều khiển BigQuery để truy vấn các tập dữ liệu công khai do Google cung cấp, với ví dụ thực tế về cách truy vấn Google Trends để tìm hiểu các chủ đề thịnh hành.
Tóm tắt nhanh
- BigQuery là kho dữ liệu được quản lý toàn phần, không máy chủ của Google Cloud cho phép bạn truy vấn petabyte dữ liệu bằng SQL chuẩn
- BigQuery tách lưu trữ khỏi tính toán, nên mỗi phần mở rộng độc lập mà không cần quản lý hạ tầng
- Sandbox miễn phí cho bạn 1 TiB truy vấn mỗi tháng và quyền truy cập tập dữ liệu công khai, không cần thẻ tín dụng
- BigQuery dùng định dạng lưu trữ dạng cột tối ưu cho tải công việc phân tích (OLAP), khác với cơ sở dữ liệu OLTP hướng hàng
- BigQuery ML cho phép xây dựng và triển khai mô hình học máy trực tiếp trong kho bằng SQL
BigQuery là gì?
BigQuery là kho dữ liệu được quản lý toàn phần, không máy chủ do Google phát triển để lưu trữ và phân tích dữ liệu ở quy mô lớn. Các tổ chức sử dụng BigQuery để chạy truy vấn phân tích trên petabyte dữ liệu bằng SQL mà không phải quản lý hạ tầng.
Bạn có thể tương tác với BigQuery qua bảng điều khiển Google Cloud, công cụ dòng lệnh bq, hoặc thư viện khách cho Python, Java, Go, Node.js, C#, PHP và Ruby.
BigQuery cũng bao gồm học máy tích hợp (BigQuery ML), cho phép bạn tạo và chạy mô hình ML trực tiếp trong kho bằng SQL. Bạn cũng có thể nhập các mô hình huấn luyện bên ngoài từ Vertex AI hoặc các framework khác.
Hướng dẫn này dành cho nhà phân tích dữ liệu, kỹ sư dữ liệu và quản trị kho dữ liệu mới bắt đầu với BigQuery. Nếu muốn học sâu hơn, khóa Giới thiệu về BigQuery của chúng tôi đề cập tối ưu hóa truy vấn và quy trình nâng cao. Bạn cũng có thể xem hướng dẫn BigQuery Sandbox và hướng dẫn toàn diện về kho dữ liệu GCP.
Kho dữ liệu truyền thống và kho dữ liệu đám mây
Một kho dữ liệu truyền thống được triển khai on-premise, thường đòi hỏi chi phí đầu tư ban đầu cao, một đội ngũ có kỹ năng để vận hành, và lập kế hoạch phù hợp nhằm đáp ứng nhu cầu tăng trưởng do khả năng mở rộng tài nguyên cứng nhắc của trung tâm dữ liệu truyền thống.
Ngược lại, kho dữ liệu đám mây được nhà cung cấp dịch vụ đám mây lưu trữ và quản lý. Ví dụ gồm Google BigQuery, Amazon Redshift và Snowflake.
Ưu điểm của kho dữ liệu đám mây
Thông thường, kho dữ liệu đám mây có một số ưu điểm so với kho dữ liệu truyền thống:
- Được xây dựng để mở rộng và tận dụng tính linh hoạt của môi trường đám mây
- Tốc độ và hiệu năng được cải thiện
- Giá linh hoạt và môi trường đám mây cho phép tối ưu chi phí (ví dụ: giảm quy mô khi nhu cầu thấp)
- Có thể được quản lý toàn phần hoặc một phần, giúp giảm chi phí vận hành.
Cơ sở dữ liệu hướng hàng và hướng cột
Ví dụ cơ sở dữ liệu hướng hàng:

Ví dụ cơ sở dữ liệu hướng cột:

Cơ sở dữ liệu hướng hàng hoạt động tốt cho tra cứu toàn bộ hàng, chèn bản ghi và cập nhật. Nhưng chúng gặp khó với tải công việc phân tích.
Ví dụ, nếu bạn truy vấn ba cột từ một bảng có 50 cột, cơ sở dữ liệu hướng hàng vẫn đọc cả 50 cột cho mỗi hàng. Cơ sở dữ liệu hướng cột chỉ đọc ba cột bạn cần, nhanh hơn nhiều cho các tác vụ phân tích như dự báo sản phẩm hoặc báo cáo ad-hoc.
Cơ sở dữ liệu hướng hàng thường phù hợp với xử lý giao dịch trực tuyến (OLTP), còn cơ sở dữ liệu hướng cột phù hợp cho xử lý phân tích trực tuyến (OLAP).
OLTP và OLAP
- OLTP là loại hệ thống cơ sở dữ liệu dùng trong các ứng dụng hướng giao dịch. "Trực tuyến" nghĩa là hệ thống được kỳ vọng phản hồi yêu cầu người dùng và xử lý theo thời gian thực (tức là xử lý giao dịch).
- Thuật ngữ này đối lập với xử lý phân tích trực tuyến (OLAP), vốn tập trung vào phân tích dữ liệu.
Tóm tắt so sánh:
|
Cơ sở dữ liệu hướng hàng |
Cơ sở dữ liệu hướng cột |
||||||
|
Lưu trữ |
Theo hàng |
Theo cột |
|||||
|
Truy xuất dữ liệu |
Bản ghi đầy đủ |
Các cột liên quan |
|||||
|
Ứng dụng điển hình |
OLTP |
OLAP |
|||||
|
Tác vụ nhanh |
Chèn, cập nhật, tra cứu |
Truy vấn phục vụ báo cáo |
|||||
|
Nạp dữ liệu |
Thường từng bản ghi một |
Thường theo lô |
|||||
|
Tùy chọn phổ biến |
Postgres, MySQL, Oracle, Microsoft SQL Server |
Snowflake, Google BigQuery, Amazon Redshift |
|||||
BigQuery hoạt động như thế nào?
BigQuery tách bộ máy tính toán khỏi lưu trữ, nên mỗi phần có thể mở rộng độc lập. Kết quả: bạn có thể truy vấn terabyte dữ liệu trong vài giây và petabyte trong vài phút.
Khi chạy truy vấn, BigQuery phân bổ công việc song song, quét các bảng liên quan trong lớp lưu trữ, hợp nhất kết quả và trả về tập dữ liệu cuối cùng.

Các tính năng chính của BigQuery vào năm 2026
Kể từ khi ra mắt, Google đã bổ sung nhiều tính năng giúp BigQuery vượt ra ngoài một kho dữ liệu truyền thống:
- BigQuery ML — Xây dựng, huấn luyện và triển khai mô hình học máy bằng SQL. Hỗ trợ hồi quy tuyến tính, phân loại, dự báo chuỗi thời gian và nhiều hơn nữa.
- Gemini trong BigQuery — Trợ lý AI hỗ trợ viết truy vấn, hiểu lược đồ và tạo insight dữ liệu bằng ngôn ngữ tự nhiên.
- BigQuery Studio — Không gian làm việc hợp nhất cho SQL, notebook Python và Spark ngay trong bảng điều khiển BigQuery.
- Truy vấn liên kết (Federated queries) — Truy vấn dữ liệu trong Cloud SQL, Cloud Storage, Bigtable và các nguồn khác mà không cần di chuyển vào BigQuery.
- BigQuery Omni — Chạy phân tích BigQuery trên dữ liệu lưu trữ ở AWS hoặc Azure mà không cần sao chép sang Google Cloud.
Bắt đầu với BigQuery như thế nào
Sandbox của BigQuery cho phép bạn thử BigQuery mà không cần cung cấp thẻ tín dụng hay tạo tài khoản thanh toán. Phần này tôi sẽ hướng dẫn cách truy cập BigQuery và thiết lập dự án đầu tiên bằng sandbox.
Bạn có thể truy cập BigQuery qua Google Cloud Console. Bạn cần đăng nhập bằng tài khoản Google (hoặc tạo một tài khoản). Sau khi đăng nhập, màn hình chào mừng sẽ xuất hiện:

Bạn có thể tìm BigQuery ở thanh menu bên trái. Nhấp vào sẽ đưa bạn đến màn hình dưới đây:

Sử dụng BigQuery sandbox
Để dùng BigQuery sandbox, trước tiên hãy tạo một dự án bằng cách nhấp vào ‘Select Project’.

Sau đó nhấp ‘New Project’:

Bạn cần cung cấp tên dự án; trong hướng dẫn này, chúng tôi dùng datacamp-guide-project

Một thông báo sandbox giờ sẽ hiển thị trên trang BigQuery, cho thấy bạn đã bật BigQuery sandbox thành công.

Khi sandbox BigQuery đã bật, bạn có thể dùng dự án mới để nạp dữ liệu và truy vấn, cũng như truy vấn các tập dữ liệu công khai của Google.
Tạo dataset và bảng
Trước khi tạo bảng, bạn cần tạo một dataset trong dự án mới. Dataset là vùng chứa cấp cao dùng để tổ chức và kiểm soát quyền truy cập cho một tập bảng và view. Để tạo dataset, nhấp vào biểu tượng ‘Actions’ của dự án:

Trong phạm vi hướng dẫn này, chúng ta sẽ điền ‘Dataset ID’ là ‘main’.

Bạn có thể tạo bảng bằng SQL. BigQuery sử dụng GoogleSQL, tuân thủ ANSI.
CREATE TABLE datacamp-guide-project.main.users (
id INT64 NOT NULL,
first_name STRING NOT NULL,
middle_name STRING,
last_name STRING NOT NULL,
active_account BOOL NOT NULL
);
Bạn cũng có thể dùng giao diện BigQuery Console:

Lưu ý: Không thể chèn dữ liệu khi ở môi trường sandbox. Nếu muốn thử chèn dữ liệu, bạn cần bật gói dùng thử miễn phí. Các phần tiếp theo tập trung vào truy vấn các tập dữ liệu công khai do Google Cloud cung cấp.
Truy vấn tập dữ liệu công khai bằng BigQuery Console
Để truy vấn tập dữ liệu công khai, làm theo các bước sau:
1. Nhấp ‘Add’ cạnh Explorer.

2. Sau đó, chọn một tập dữ liệu.

3. Tìm ‘Google Trends’ và chọn Google Trends, rồi nhấp nút ‘View dataset’.

4. bigquery-public-data sẽ xuất hiện với một danh sách dài các tập dữ liệu. Gắn sao bigquery-public-data để nó “ghim” trong explorer

Ví dụ thực tế với tập dữ liệu Google Trends
Chúng ta sẽ dùng bảng top_terms:

Nhấp vào bảng top_terms để mở, và xem phần Details và Preview để tìm hiểu thêm về dữ liệu top_terms.


Bạn có thể truy vấn tập dữ liệu, ví dụ bên dưới để lấy các thuật ngữ xếp hạng vị trí đầu tiên trong hai tuần gần đây:
SELECT
term
FROM
bigquery-public-data.google_trends.top_terms
WHERE
rank = 1
AND refresh_date >= DATE_SUB(CURRENT_DATE(), INTERVAL 2 WEEK)
GROUP BY
term
Kết quả (sẽ thay đổi):

Giá BigQuery
Giá BigQuery có hai thành phần chính: tính toán (xử lý truy vấn) và lưu trữ.
| Thành phần | Giới hạn miễn phí | Giá trả phí |
|---|---|---|
| Truy vấn theo nhu cầu | 1 TiB mỗi tháng | $6.25 mỗi TiB |
| Lưu trữ (hoạt động) | 10 GiB | $0.02 mỗi GiB/tháng |
| Lưu trữ (dài hạn) | 10 GiB | $0.01 mỗi GiB/tháng |
| Chèn dữ liệu dạng streaming | Không áp dụng | $0.05 mỗi 200 MB |
Với các đội có khối lượng công việc dự đoán được, BigQuery cũng cung cấp giá cố định thông qua đặt chỗ dung lượng (BigQuery Editions). Hãy xem trang giá chính thức để biết mức giá hiện tại.
Kết luận
BigQuery là một trong những điểm khởi đầu dễ tiếp cận nhất để bước vào kho dữ liệu trên đám mây. Sandbox cho bạn môi trường thử nghiệm không rủi ro, và 1 TiB truy vấn miễn phí mỗi tháng giúp bạn khám phá các tập dữ liệu công khai mà không tốn chi phí. Khi cần nhiều hơn, gói dùng thử miễn phí của Google Cloud cung cấp $300 tín dụng.
Nếu muốn xây dựng tiếp từ những gì đã học ở đây, tôi khuyến nghị khóa Giới thiệu về BigQuery trên DataCamp, bao gồm tối ưu hóa truy vấn và làm việc với các tập dữ liệu lớn hơn. Ở góc nhìn rộng hơn về kỹ thuật dữ liệu, lộ trình Data Engineer in Python bao quát toàn bộ pipeline từ thu thập đến kho dữ liệu.
Bạn cũng có thể khám phá cách BigQuery so sánh với các lựa chọn thay thế trong các bài BigQuery vs Redshift và BigQuery vs Snowflake, hoặc chuẩn bị phỏng vấn với hướng dẫn câu hỏi phỏng vấn BigQuery của chúng tôi.

Giám đốc Công nghệ của DataCamp và Tổng Giám đốc Nền tảng Học tập. Trong vai trò của mình, tôi quản lý các nhóm tập trung xây dựng công nghệ cũng như chương trình giảng dạy tạo nên trải nghiệm học tập cho người dùng DataCamp.