當您使用選用元件功能建立 Dataproc 叢集時,可以安裝 Trino 等其他元件。本頁說明如何在 Dataproc 叢集上選擇性安裝 Trino 元件。
Trino 是開放原始碼分散式 SQL 查詢引擎。根據預設,Trino 伺服器和網頁版 UI 位於叢集第一個主要節點的通訊埠 8060
上 (若 Kerberos 已啟用,則為通訊埠 7778
)。
根據預設,Dataproc 上的 Trino 已設定為與 Hive
、BigQuery
、Memory
、TPCH
和 TPCDS
連接器搭配使用。
使用 Trino 元件建立叢集後,即可執行查詢:
- 使用本機終端機的
gcloud dataproc jobs submit trino
指令 - 在叢集的第一個主要節點上,使用
trino
CLI (指令列介面) 執行,詳情請參閱「搭配 Dataproc 使用 Trino」。
安裝元件
請在建立 Dataproc 叢集時安裝元件。
請參閱支援的 Dataproc 版本,瞭解每個 Dataproc 映像檔版本中包含的元件版本。
控制台
- 在 Google Cloud 控制台中,前往 Dataproc 的「Create a cluster」(建立叢集) 頁面。
系統會選取「設定叢集」面板。
- 在「元件」部分:
- 在「選用元件」中,選取要安裝在叢集上的 Trino 和其他選用元件。
- 在「元件閘道」下方,選取「啟用元件閘道」(請參閱「查看及存取元件閘道網址」)。
gcloud CLI
如要建立包含 Trino 元件的 Dataproc 叢集,請使用 gcloud dataproc clusters create 指令搭配 --optional-components
標記。
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=TRINO \ --region=region \ --enable-component-gateway \ ... other flags
- CLUSTER_NAME:叢集名稱。
- REGION:叢集所在的 Compute Engine 地區。
設定屬性
在 gcloud dataproc clusters create
指令中新增 --properties
標記,以設定 trino
、trino-jvm
和 trino-catalog
config 屬性。
-
應用程式屬性:使用叢集屬性搭配
trino:
前置字元,設定 Trino 應用程式屬性,例如--properties="trino:join-distribution-type=AUTOMATIC"
。 - JVM 設定屬性:使用帶有
trino-jvm:
前置字元的叢集屬性,為 Trino 協調器和工作站 Java 程序設定 JVM 屬性,例如--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError"
。 - 建立新目錄及新增目錄屬性:使用
trino-catalog:catalog-name.property-name
設定 Trino 目錄。範例:下列 `properties` 標記可與 `gcloud dataproc clusters create` 指令搭配使用,建立具有「prodhive」Hive 目錄的 Trino 叢集。系統會在
/usr/lib/trino/etc/catalog/
下建立prodhive.properties
檔案,以啟用 prodhive 目錄。--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"
REST API
您可以透過 Dataproc API,使用 SoftwareConfig.Component,做為 clusters.create 要求的一部分,指定 Trino 元件。