Dataproc 選用 Trino 元件

當您使用選用元件功能建立 Dataproc 叢集時,可以安裝 Trino 等其他元件。本頁說明如何在 Dataproc 叢集上選擇性安裝 Trino 元件。

Trino 是開放原始碼分散式 SQL 查詢引擎。根據預設,Trino 伺服器和網頁版 UI 位於叢集第一個主要節點的通訊埠 8060 上 (若 Kerberos 已啟用,則為通訊埠 7778)。

根據預設,Dataproc 上的 Trino 已設定為與 HiveBigQueryMemoryTPCHTPCDS 連接器搭配使用。

使用 Trino 元件建立叢集後,即可執行查詢:

安裝元件

請在建立 Dataproc 叢集時安裝元件。

請參閱支援的 Dataproc 版本,瞭解每個 Dataproc 映像檔版本中包含的元件版本。

控制台

  1. 在 Google Cloud 控制台中,前往 Dataproc 的「Create a cluster」(建立叢集) 頁面。

    前往「建立叢集」

    系統會選取「設定叢集」面板。

  2. 在「元件」部分:
    • 在「選用元件」中,選取要安裝在叢集上的 Trino 和其他選用元件。
    • 在「元件閘道」下方,選取「啟用元件閘道」(請參閱「查看及存取元件閘道網址」)。

gcloud CLI

如要建立包含 Trino 元件的 Dataproc 叢集,請使用 gcloud dataproc clusters create 指令搭配 --optional-components 標記。

gcloud dataproc clusters create CLUSTER_NAME \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags
    
注意:

設定屬性

gcloud dataproc clusters create 指令中新增 --properties 標記,以設定 trinotrino-jvmtrino-catalog config 屬性。

  • 應用程式屬性:使用叢集屬性搭配 trino: 前置字元,設定 Trino 應用程式屬性,例如 --properties="trino:join-distribution-type=AUTOMATIC"
  • JVM 設定屬性:使用帶有 trino-jvm: 前置字元的叢集屬性,為 Trino 協調器和工作站 Java 程序設定 JVM 屬性,例如 --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError"
  • 建立新目錄及新增目錄屬性:使用 trino-catalog:catalog-name.property-name 設定 Trino 目錄。

    範例:下列 `properties` 標記可與 `gcloud dataproc clusters create` 指令搭配使用,建立具有「prodhive」Hive 目錄的 Trino 叢集。系統會在 /usr/lib/trino/etc/catalog/ 下建立 prodhive.properties 檔案,以啟用 prodhive 目錄。

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"

REST API

您可以透過 Dataproc API,使用 SoftwareConfig.Component,做為 clusters.create 要求的一部分,指定 Trino 元件。