Diese Seite beschreibt die Preise für Dataflow. Informationen zu den Preisen anderer Produkte finden Sie in der Preisübersicht.
Informationen dazu, wie Sie mit einer dreijährigen Zusicherung 40% oder mit einer einjährigen Zusicherung 20% sparen können, finden Sie auf der Seite Rabatte für zugesicherte Nutzung.
Die Dataflow-Nutzung wird für die Ressourcen abgerechnet, die Ihre Jobs verwenden. Je nach Preismodell werden Ressourcen unterschiedlich gemessen und abgerechnet.
| Data Compute Units (DCUs) (Batch- und Streamingmodus) |
Data Compute Units (DCUs)
(Batch- und Streamingmodus)
Weitere Dataflow-Ressourcen, die für alle Jobs in Rechnung gestellt werden, umfassen nichtflüchtige Speicher, GPUs und Snapshots.
Ressourcen aus anderen Diensten können für den Dataflow-Job verwendet werden. Dienste, die mit Dataflow verwendet werden, sind unter anderem BigQuery, Pub/Sub, Cloud Storage und Cloud Logging.
Der Preis wird zwar pro Stunde angegeben, die Abrechnung für die Nutzung von Dataflow erfolgt jedoch pro Sekunde und Job. Die Nutzung wird in Stunden angegeben, damit trotz sekundengenauer Abrechnung ein Preis pro Stunde abgerechnet wird. 30 Minuten entsprechen beispielsweise 0, 5 Stunden. Worker und Jobs können Ressourcen wie in den folgenden Abschnitten beschrieben nutzen.
Für zukünftige Releases von Dataflow gelten möglicherweise unterschiedliche Servicegebühren und/oder andere Bündelungsmöglichkeiten für zugehörige Dienste.
Die Dataflow-Abrechnung für Rechenressourcen beinhaltet die folgenden Komponenten:
Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Seite Regionen und Zonen von Compute Engine.
Jeder Dataflow-Job verwendet mindestens einen Dataflow-Worker. Der Dataflow-Dienst bietet zwei Worker-Typen: Batch und Streaming. Für Batch- und Streaming-Worker gelten unterschiedliche Servicegebühren.
Dataflow-Worker nutzen die folgenden Ressourcen, die jeweils pro Sekunde abgerechnet werden:
Batch- und Streaming-Worker sind spezialisierte Ressourcen, die Compute Engine nutzen. Allerdings gibt ein Dataflow-Job keine Compute Engine-Abrechnung für Compute Engine-Ressourcen aus, die vom Dataflow-Dienst verwaltet werden. Stattdessen wird die Nutzung dieser Compute Engine-Ressourcen zusammen mit den Gebühren für den Dataflow-Dienst ausgewiesen.
Sie können die standardmäßige Anzahl der Worker für einen Job überschreiben. Wenn Sie Autoscaling verwenden, können Sie die maximale Anzahl der Worker angeben, die einem Job zugewiesen werden sollen. Worker und entsprechende Ressourcen werden automatisch hinzugefügt und entfernt, je nachdem, ob Autoscaling aktiviert ist.
Außerdem können Sie Pipeline-Optionen verwenden, um die Standardeinstellungen der Ressourcen (Maschinentyp, Laufwerkstyp und Laufwerksgröße) zu überschreiben, die jedem Worker zugewiesen sind und GPUs verwenden.
Dataflow bietet auch eine Option mit ermäßigten CPU- und Speicherpreisen für die Batchverarbeitung. Flexible Resource Scheduling (FlexRS) vereint reguläre VMs und VMs auf Abruf in einem einzigen Dataflow-Worker-Pool, sodass Nutzer Zugriff auf kostengünstigere Verarbeitungsressourcen erhalten. FlexRS verzögert außerdem die Ausführung eines Batch-Dataflow-Jobs innerhalb eines Zeitraums von 6 Stunden, um den besten Zeitpunkt für den Start des Jobs je nach den verfügbaren Ressourcen zu ermitteln.
Obwohl Dataflow eine Kombination von Workern zur Ausführung eines FlexRS-Jobs verwendet, wird Ihnen unabhängig vom Worker-Typ ein einheitlicher ermäßigter Preis von etwa 40% auf die CPU- und Arbeitsspeicherkosten im Vergleich zu den regulären Dataflow-Preisen berechnet. Sie weisen Dataflow mit dem Parameter FlexRS an, FlexRS für Ihre automatisch skalierten Batchpipelines zu verwenden.
Für Batch-Pipelines bietet Dataflow ein hoch skalierbares Feature namens Dataflow Shuffle, das Daten außerhalb von Workern nach dem Zufallsprinzip umverteilt. Weitere Informationen finden Sie unter Dataflow Shuffle.
Dataflow Shuffle-Gebühren werden nach dem Datenvolumen berechnet, das während des Shuffles verarbeitet wird.
Bei Streaming-Pipelines verschiebt die Dataflow Streaming Engine Streaming-Shuffle und Statusverarbeitung aus den Worker-VMs in das Dataflow-Dienst-Backend. Weitere Informationen finden Sie unter Streaming Engine.
Bei der ressourcenbasierten Abrechnung werden Streaming Engine-Ressourcen in Streaming Engine-Recheneinheiten gemessen. Dataflow misst die Streaming Engine-Ressourcen, die von jedem Job verwendet werden, und rechnet dann die Gesamtzahl der von diesem Job verwendeten Ressourcen ab. Informationen zum Aktivieren der ressourcenbasierten Abrechnung für Ihren Job finden Sie unter Ressourcenbasierte Abrechnung verwenden. Bei der ressourcenbasierten Abrechnung werden bestehende Rabatte automatisch angewendet.
Wenn Sie Dataflow Prime mit ressourcenbasierter Abrechnung verwenden, werden Ihnen die gesamten Ressourcen in Rechnung gestellt, die jeder Job nutzt. Anstelle der SKU für Streaming Engine-Recheneinheiten wird jedoch die SKU für Data Compute Units (DCUs) verwendet.
Dataflow unterstützt weiterhin die Abrechnung nach verarbeiteten Daten. Wenn Sie die ressourcenbasierte Abrechnung nicht aktivieren, werden Jobs über die Abrechnung nach verarbeiteten Daten abgerechnet.
Die Abrechnung der Streaming Engine-Datennutzung erfolgt nach der Menge der verarbeiteten Streamingdaten. Diese hängt von den folgenden Faktoren ab:
Beispiele für verarbeitete Byte:
Preise für Dataflow-Rechenressourcen – Batch
Die folgende Tabelle enthält Preisinformationen für Worker-Ressourcen und für Shuffle-Daten, die für Batch verarbeitet werden.
Jobtyp | Standard (USD) |
---|---|
CPU | 0,056 $ / 1 hour |
Arbeitsspeicher | 0,003557 $ / 1 gibibyte hour |
Während des Shuffles verarbeitete Daten | 0,011 $ / 1 gibibyte |
Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Arbeitsspeicher, 250 GB nichtflüchtiger Speicher, wenn Dataflow Shuffle nicht verwendet wird, 25 GB nichtflüchtiger Speicher, wenn Dataflow Shuffle verwendet wird
Preise für Dataflow-Rechenressourcen – FlexRS
Die folgende Tabelle enthält Preisdetails für Worker-Ressourcen und verarbeitete Shuffle-Daten für FlexRS-Jobs.
Ressource | Standard (USD) |
---|---|
CPU | 0,0336 $ / 1 hour |
Arbeitsspeicher | 0,0021342 $ / 1 gibibyte hour |
Während des Shuffles verarbeitete Daten | 0,011 $ / 1 gibibyte |
FlexRS-Worker-Standardeinstellungen: 2 vCPUs, 7, 50 GB Arbeitsspeicher, 25 GB nichtflüchtiger Speicher pro Worker bei mindestens zwei Workern
Die folgende Tabelle enthält Preisinformationen zu Worker-Ressourcen, verarbeiteten Streaming Engine-Daten (Legacy) und Streaming Engine-Recheneinheiten für Streamingjobs.
Ressource | Default* (USD) | Dataflow CUD - 1 Year* (USD) | Dataflow CUD - 3 Year* (USD) |
---|---|---|---|
CPU | 0,069 $ / 1 hour | 0,0552 $ / 1 hour | 0,0414 $ / 1 hour |
Arbeitsspeicher | 0,003557 $ / 1 gibibyte hour | 0,0028456 $ / 1 gibibyte hour | 0,0021342 $ / 1 gibibyte hour |
Während des Shuffles verarbeitete Daten | 0,018 $ / 1 gibibyte | 0,0144 $ / 1 gibibyte | 0,0108 $ / 1 gibibyte |
Streaming Engine | 0,089 $ / 1 count | 0,0712 $ / 1 count | 0,0534 $ / 1 count |
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
3 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Arbeitsspeicher, 400 GB nichtflüchtiger Speicher, wenn Streaming Engine nicht verwendet wird, 30 GB nichtflüchtiger Speicher, wenn Streaming Engine verwendet wird. Der Dataflow-Dienst ist derzeit zum Ausführen eines Streamingjobs pro Worker-Instanz auf 15 nichtflüchtige Speicher beschränkt. Ein Verhältnis von 1:1 zwischen Workern und Laufwerken ist die minimale Ressourcenzuweisung.
4 Die Dataflow Shuffle-Preise richten sich nach den Gutschriften für die Datenmenge, die in den Lese- und Schreibvorgängen beim Umverteilen Ihres Datasets verarbeitet wird. Weitere Informationen finden Sie unter Preisangaben zu Dataflow Shuffle. Die Dataflow Shuffle-Preise gelten nicht für Streaming Engine-Jobs, die eine ressourcenbasierte Abrechnung verwenden.
5 Streaming Engine-Recheneinheiten: für Streamingjobs, die Streaming Engine und das ressourcenbasierte Abrechnungsmodell verwenden. Für diese Jobs werden die während des Shuffles verarbeiteten Daten nicht in Rechnung gestellt.
Die Kosten werden pro Dataflow-Job nach Anpassung des während den Dataflow Shuffle-Vorgängen verarbeiteten Gesamtvolumens berechnet. Ihre tatsächliche Abrechnung für die verarbeiteten Dataflow Shuffle-Daten entspricht dem Standardpreis für ein kleineres Datenvolumen als dem, das in einem Dataflow-Job verarbeitet wurde. Diese Differenz ergibt sich daraus, dass der Messwert abgerechnete verarbeitete Shuffle-Daten geringer ist als der Messwert insgesamt verarbeitete Shuffle-Daten.
In der folgenden Tabelle wird erläutert, wie diese Gutschriften angewendet werden:
Verarbeitete Dataflow Shuffle-Daten | Rechnungsgutschrift |
---|---|
Erste 250 GiB | 75 % |
Nächste 4.870 GiB | 50 % |
Weitere Daten über 5.120 GiB (5 TiB) | Keine |
Wenn Ihre Pipeline beispielsweise insgesamt 1.024 GiB (1 TiB) verarbeitete Dataflow Shuffle-Daten umfasst, wird das Datenvolumen so berechnet:
250 GiB × 25% + 774 GiB × 50% = 449,5 GiB × regionale Dataflow Shuffle-Datenverarbeitungsrate
Bei einer Pipeline mit insgesamt 10.240 GiB (10 TiB) verarbeiteten Dataflow Shuffle-Daten wird das Datenvolumen so berechnet:
250 GiB * 25% + 4.870 GiB * 50% + 5.120 GiB = 7.617,5 GiB
Dataflow Prime ist eine Datenverarbeitungsplattform, die auf Dataflow aufbaut und Verbesserungen bei der Ressourcennutzung und der verteilten Diagnose bietet.
Die von einem Dataflow Prime-Job genutzten Rechenressourcen werden nach der Anzahl der Data Compute Units (DCUs) berechnet. DCUs stellen die Rechenressourcen dar, die zum Ausführen Ihrer Pipeline zugewiesen werden. Weitere Dataflow-Ressourcen, die von Dataflow Prime-Jobs verwendet werden, wie nichtflüchtige Speicher, GPUs und Snapshots, werden separat in Rechnung gestellt.
Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Seite Regionen und Zonen von Compute Engine.
Eine Data Compute Unit (DCU) ist eine Einheit zur Dataflow-Nutzungsmessung, mit der die von Ihren Jobs genutzten Rechenressourcen verfolgt werden. Zu den von DCUs erfassten Ressourcen gehören vCPU, Arbeitsspeicher, verarbeitete Dataflow Shuffle-Daten (für Batchjobs) und verarbeitete Streaming Engine-Daten (für Streamingjobs). Bei Jobs, die mehr Ressourcen verbrauchen, ist die DCU-Nutzung im Vergleich zu Jobs, die weniger Ressourcen verbrauchen, höher. Eine DCU ist vergleichbar mit den Ressourcen, die von einem Dataflow-Job verwendet werden, der eine Stunde lang auf einem 1-vCPU-4-GB-Worker ausgeführt wird.
Ihnen wird die Gesamtzahl der von Ihrem Job verbrauchten DCUs in Rechnung gestellt. Der Preis für eine einzelne DCU variiert je nachdem, ob Sie einen Batch- oder einen Streamingjob haben. Wenn Sie Dataflow Prime mit ressourcenbasierter Abrechnung verwenden, werden Ihnen die Gesamtkosten der verwendeten Ressourcen in Rechnung gestellt, nicht die verarbeiteten Bytes.
Jobtyp | Default* (USD) | Dataflow CUD - 1 Year* (USD) | Dataflow CUD - 3 Year* (USD) |
---|---|---|---|
Batch | 0,06 $ / 1 count | - | - |
Streaming | 0,089 $ / 1 count | 0,0712 $ / 1 count | 0,0534 $ / 1 count |
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
Sie können die Anzahl der DCUs für Ihre Jobs nicht festlegen. DCUs werden von Dataflow Prime gezählt. Sie können die Anzahl der verbrauchten DCUs jedoch reduzieren, indem Sie die folgenden Aspekte Ihres Jobs verwalten:
Sie können die Optimierungen über die Schnittstelle Dataflow-Monitoring-Oberfläche und Ausführungsdetails identifizieren.
In Dataflow werden die heterogenen Ressourcen in Rechnung gestellt, die von den Jobs verbraucht werden: vCPUs, Arbeitsspeicher, nichtflüchtiger Speicher und die von Dataflow Shuffle oder Streaming Engine verarbeitete Datenmenge.
Data Compute Units fassen alle Ressourcen außer dem Speicher in einer einzigen Abrechnungseinheit zusammen. Ihnen werden die Ressourcen des nichtflüchtigen Speichers und die Anzahl der verbrauchten DCUs in Rechnung gestellt, je nach Jobtyp (Batch oder Streaming). Weitere Informationen finden Sie unter Dataflow Prime verwenden.
Ihre bestehenden Batch- und Streamingjobs werden weiterhin nach dem Dataflow-Modell abgerechnet. Wenn Sie Ihre Jobs auf Dataflow Prime umstellen, wird das Dataflow Prime-Preismodell verwendet. Ihnen werden dann die Persistent Disk-Ressourcen und die verbrauchten DCUs in Rechnung gestellt.
Speicher, GPUs, Snapshots und andere Ressourcen werden für Dataflow und Dataflow Prime auf dieselbe Weise abgerechnet.
Speicherressourcen werden für Streaming-, Batch- und FlexRS-Jobs zum selben Preis abgerechnet. Mit Pipeline-Optionen können Sie die Standardgröße oder den Standardtyp des Laufwerks ändern. Dataflow Prime berechnet die Nutzung des nichtflüchtigen Speichers separat anhand der Preise in der folgenden Tabelle.
Posten | Standard (USD) |
---|---|
Speicher – nichtflüchtiger Standardspeicher | 0,000054 $ / 1 gibibyte hour |
Speicher – nichtflüchtiger SSD-Speicher | 0,000298 $ / 1 gibibyte hour |
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
Der Dataflow-Dienst ist derzeit zum Ausführen eines Streamingjobs pro Worker-Instanz auf 15 nichtflüchtige Speicher beschränkt. Jeder nichtflüchtige Speicher ist lokal einer einzelnen Compute Engine-VM zugeordnet. Ein Verhältnis von 1:1 zwischen Workern und Laufwerken ist die minimale Ressourcenzuweisung.
Für Jobs, die Streaming Engine verwenden, werden 30 GB-Bootlaufwerke verwendet. Für Jobs, die Dataflow Shuffle verwenden, werden 25 GB-Bootlaufwerke verwendet. Bei Jobs, die diese Angebote nicht nutzen, beträgt die Standardgröße der nichtflüchtigen Speicher 250 GB im Batchmodus und 400 GB im Streamingmodus.
Die Compute Engine-Nutzung richtet sich nach der durchschnittlichen Anzahl von Workern. Die Nutzung nichtflüchtiger Speicher basiert hingegen auf dem exakten Wert von --maxNumWorkers. Nichtflüchtige Speicher werden so neu verteilt, dass jeder Worker mit der gleichen Anzahl von Laufwerken verbunden ist.
GPU-Ressourcen werden für Streaming- und Batch-Jobs zum selben Preis abgerechnet. FlexRS unterstützt derzeit keine GPUs. Informationen zu verfügbaren Regionen und Zonen für GPUs finden Sie in der Compute Engine-Dokumentation unter Verfügbarkeit: GPU-Regionen und ‑Zonen.
Posten | Standard (USD) |
---|---|
NVIDIA® Tesla® P100 GPU | 1,752 $ / 1 hour |
NVIDIA® Tesla® V100 GPU | 2,976 $ / 1 hour |
NVIDIA® Tesla® T4-GPU | 0,42 $ / 1 hour |
NVIDIA® Tesla® P4-GPU | 0,72 $ / 1 hour |
NVIDIA® Tesla® L4-GPU | 0,672048 $ / 1 hour |
NVIDIA® Tesla® A100 (40 GB) GPU | 3,72 $ / 1 hour |
NVIDIA® Tesla® A100 (80 GB) GPU | 4,713696 $ / 1 hour |
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
Sie können mit Snapshots den Zustand Ihrer Pipeline speichern und wiederherstellen, um die Zuverlässigkeit Ihrer Streaming-Pipelines zu gewährleisten. Die Snapshot-Nutzung wird nach der Menge der gespeicherten Daten abgerechnet. Diese hängt wiederum von folgenden Faktoren ab:
Sie können einen Snapshot Ihres Streamingjobs mit der Dataflow Console oder der Google Cloud CLI erstellen. Für die Erstellung eines Auftrags aus Ihrem Snapshot zur Wiederherstellung des Zustands Ihrer Pipeline fallen keine zusätzlichen Kosten an. Weitere Informationen finden Sie unter Dataflow-Snapshots verwenden.
Posten | Standard (USD) |
---|---|
Speicher | 0,000205479 $ / 1 gibibyte hour |
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
Confidential VM für Dataflow verschlüsselt die Daten, die auf den Compute Engine-Worker-VMs verwendet werden. Weitere Informationen finden Sie unter Confidential VM – Übersicht.
Die Verwendung von Confidential VMs für Dataflow verursacht zusätzliche Pauschalkosten pro vCPU und GB.
Die Preise sind global und ändern sich nicht je nach Google Cloud-Region.
Posten | Standard (USD) |
---|---|
CPU | 0,005479 $ / 1 hour |
Arbeitsspeicher | 0,0007342 $ / 1 gibibyte hour |
Außer Dataflow-Ressourcen kann ein Job weitere Ressourcen nutzen, die jeweils nach ihren eigenen Preisen abgerechnet werden. Dies sind beispielsweise:
Sie können sämtliche vCPU-, Arbeitsspeicher- und nichtflüchtigen Speicherressourcen, die einem Job zugeordnet sind, im Bereich Jobinfo unter Ressourcenmesswerte einsehen. Sie können die folgenden Messwerte in der Dataflow-Monitoring-Oberfläche verfolgen:
An dem Messwert Verarbeitete Shuffle-Daten insgesamt können Sie die Leistung Ihrer Pipeline ablesen und an dem Messwert Abrechenbare verarbeitete Shuffle-Daten die Kosten des jeweiligen Dataflow-Jobs.
Bei Dataflow Prime können Sie die Gesamtzahl der von einem Job verbrauchten DCUs im Bereich Jobinfo unter Ressourcenmesswerte aufrufen.
Mit dem Google Cloud-Preisrechner können Sie sich ein Bild davon machen, wie sich Ihre Rechnung zusammensetzt.
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.