Componente Trino opcional do Dataproc

Pode instalar componentes adicionais, como o Trino, quando cria um cluster do Dataproc através da funcionalidade Componentes opcionais. Esta página descreve como pode instalar opcionalmente o componente Trino num cluster do Dataproc.

O Trino é um motor de consultas SQL distribuído de código aberto. O servidor Trino e a IU Web estão disponíveis por predefinição na porta 8060 (ou na porta 7778 se o Kerberos estiver ativado) no primeiro nó principal do cluster.

Por predefinição, o Trino no Dataproc está configurado para funcionar com os conetores Hive, BigQuery, Memory, TPCH e TPCDS.

Depois de criar um cluster com o componente Trino, pode executar consultas:

Instale o componente

Instale o componente quando criar um cluster do Dataproc.

Consulte as versões do Dataproc suportadas para ver a versão do componente incluída em cada lançamento de imagem do Dataproc.

Consola

  1. Na Google Cloud consola, aceda a Dataproc página Criar um cluster.

    Aceda a Criar um cluster

    O painel Configurar cluster está selecionado.

  2. Na secção Componentes:
    • Em Componentes opcionais, selecione o Trino e outros componentes opcionais para instalar no cluster.
    • Em Component Gateway, selecione Enable component gateway (consulte Ver e aceder aos URLs do Component Gateway).

CLI gcloud

Para criar um cluster do Dataproc que inclua o componente Trino, use o comando gcloud dataproc clusters create com a flag --optional-components.

gcloud dataproc clusters create CLUSTER_NAME \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags
    
Notas:

Configurar propriedades

Adicione a flag --properties ao comando gcloud dataproc clusters create para definir as propriedades de configuração trino, trino-jvm e trino-catalog.

  • Propriedades da aplicação: use propriedades de cluster com o prefixo trino: para configurar propriedades da aplicação Trino, por exemplo, --properties="trino:join-distribution-type=AUTOMATIC".
  • Propriedades de configuração da JVM: use propriedades de cluster com o prefixo trino-jvm: para configurar propriedades da JVM para processos Java do coordenador e do trabalhador do Trino, por exemplo, --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Criar novos catálogos e adicionar propriedades do catálogo: use trino-catalog:catalog-name.property-name para configurar catálogos do Trino.

    Exemplo: a seguinte flag `properties` pode ser usada com o comando `gcloud dataproc clusters create` para criar um cluster do Trino com um catálogo do Hive "prodhive". É criado um ficheiro prodhive.properties em /usr/lib/trino/etc/catalog/ para ativar o catálogo prodhive.

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"

API REST

O componente Trino pode ser especificado através da API Dataproc com SoftwareConfig.Component como parte de um pedido clusters.create.