Dataflow ドキュメント
Dataflow は、さまざまなデータ処理パターンの実行に対応したマネージド サービスです。このサイトのドキュメントでは、Dataflow を使用してバッチおよびストリーミングのデータ処理パイプラインをデプロイする方法とサービス機能の使用方法を説明します。
Apache Beam SDK は、バッチとストリーミングの両方のパイプラインの開発に対応したオープンソースのプログラミング モデルです。Apache Beam プログラムでパイプラインを作成し、Dataflow サービスで実行します。Apache Beam のドキュメントには、詳細なコンセプト情報と Apache Beam のプログラミング モデル、SDK、他のランナーのリファレンス情報が記載されています。
Apache Beam の基本コンセプトについては、Beam のツアーと Beam Playground をご覧ください。また、Dataflow Cookbook リポジトリには、起動可能な自己完結型のパイプラインと、Dataflow の最も一般的なユースケースが用意されています。
ドキュメント リソース
関連リソース
HPC の高度な並列ワークロードを実行する
Dataflow を使用すると、高度に並列化されたワークロードを単一のパイプラインで実行できるため、効率が向上し、ワークフローの管理が容易になります。
Dataflow ML を使用して推論を実行する
Dataflow ML では、Dataflow を使用して完全な ML パイプラインをデプロイおよび管理できます。ML モデルを使用して、バッチ パイプラインとストリーミング パイプラインでローカルとリモートの推論を行います。データ処理ツールを使用して、モデルのトレーニング用データを準備し、モデルの結果を処理します。
e コマースのストリーミング パイプラインを作成する
ウェブストアから BigQuery と Bigtable にデータをストリーミングするエンドツーエンドの e コマース サンプル アプリケーションを構築します。このサンプル アプリケーションは、ストリーミング データ分析とリアルタイム AI を実装するための一般的なユースケースとベスト プラクティスを示しています。