Pode instalar componentes adicionais, como o Trino, quando cria um cluster do Dataproc através da funcionalidade Componentes opcionais. Esta página descreve como pode instalar opcionalmente o componente Trino num cluster do Dataproc.
O Trino é um motor de consultas SQL distribuído de código aberto. O servidor Trino e a IU Web estão disponíveis por predefinição na porta 8060
(ou na porta 7778
se o Kerberos estiver ativado) no primeiro nó principal do cluster.
Por predefinição, o Trino no Dataproc está configurado para funcionar com os conetores Hive
, BigQuery
, Memory
, TPCH
e TPCDS
.
Depois de criar um cluster com o componente Trino, pode executar consultas:
- a partir de um terminal local com o comando
gcloud dataproc jobs submit trino
- a partir de uma janela de terminal no primeiro nó principal do cluster com a CLI (interface de linhas de comando). Consulte o artigo
Use o Trino com o Dataproc.
trino
Instale o componente
Instale o componente quando criar um cluster do Dataproc.
Consulte as versões do Dataproc suportadas para ver a versão do componente incluída em cada lançamento de imagem do Dataproc.
Consola
- Na Google Cloud consola, aceda a Dataproc
página Criar um cluster.
O painel Configurar cluster está selecionado.
- Na secção Componentes:
- Em Componentes opcionais, selecione o Trino e outros componentes opcionais para instalar no cluster.
- Em Component Gateway, selecione Enable component gateway (consulte Ver e aceder aos URLs do Component Gateway).
CLI gcloud
Para criar um cluster do Dataproc que inclua o componente Trino,
use o comando
gcloud dataproc clusters create
com a flag --optional-components
.
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=TRINO \ --region=region \ --enable-component-gateway \ ... other flags
- CLUSTER_NAME: o nome do cluster.
- REGION: Uma região do Compute Engine onde o cluster vai estar localizado.
Configurar propriedades
Adicione a flag --properties
ao comando
gcloud dataproc clusters create
para definir as propriedades de configuração
trino
, trino-jvm
e trino-catalog
.
-
Propriedades da aplicação: use propriedades de cluster com o prefixo
trino:
para configurar propriedades da aplicação Trino, por exemplo,--properties="trino:join-distribution-type=AUTOMATIC"
. - Propriedades de configuração da JVM: use propriedades de cluster com o prefixo
trino-jvm:
para configurar propriedades da JVM para processos Java do coordenador e do trabalhador do Trino, por exemplo,--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError"
. - Criar novos catálogos e adicionar propriedades do catálogo: use
trino-catalog:catalog-name.property-name
para configurar catálogos do Trino.Exemplo: a seguinte flag `properties` pode ser usada com o comando `gcloud dataproc clusters create` para criar um cluster do Trino com um catálogo do Hive "prodhive". É criado um ficheiro
prodhive.properties
em/usr/lib/trino/etc/catalog/
para ativar o catálogo prodhive.--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"
API REST
O componente Trino pode ser especificado através da API Dataproc com SoftwareConfig.Component como parte de um pedido clusters.create.