Cotas e limites

Confira neste documento as cotas e os limites que se aplicam ao Dataflow. Para mais informa��es sobre cotas, consulte Cotas da nuvem privada virtual.

Uma cota restringe quanto de um determinado recurso compartilhado do Google Cloud o projeto do Google Cloud pode usar, incluindo hardware, software e componentes de rede. Dessa forma, as cotas fazem parte de um sistema que:

  • monitora o uso ou o consumo de produtos e servi�os do Google Cloud;
  • restringe o consumo desses recursos por motivos, que garantem imparcialidade e reduzem picos de uso;
  • mant�m as configura��es que aplicam automaticamente restri��es prescritas;
  • fornece um meio de solicitar ou faz altera��es na cota.

Na maioria dos casos, quando uma cota � excedida, o sistema bloqueia imediatamente o acesso ao recurso relevante do Google. Al�m disso, a tarefa que voc� est� tentando executar falha. Na maioria dos casos, as cotas se aplicam a todos os projetos do Google Cloud. Al�m disso, elas s�o compartilhadas entre todos os aplicativos e endere�os IP que usam esse projeto.

Para aumentar ou diminuir a maioria das cotas, use o console do Google Cloud. Para mais informa��es, consulte Solicitar uma cota maior.

Tamb�m h� limites para os recursos de Dataflow. Esses limites n�o est�o relacionados ao sistema de cotas. N�o � poss�vel mudar os limites, a menos que seja indicado o contr�rio.

O servi�o gerenciado do Dataflow tem as seguintes cotas e limites:

  • Cada projeto do Google Cloud pode fazer at� 3.000.000 de solicita��es por minuto.
  • Cada job do Dataflow pode usar no m�ximo 2.000 inst�ncias do Compute Engine. Sem especificar uma zona de worker, cada job de streaming usando o Streaming Engine ou um job em lote usando o Dataflow Shuffle baseado em servi�o pode usar no m�ximo 4.000 inst�ncias do Compute Engine.
  • Cada projeto do Google Cloud pode executar no m�ximo 25 jobs simult�neos do Dataflow por padr�o.
  • Cada worker do Dataflow tem um limite m�ximo de registros que ele pode gerar em um intervalo de tempo. Consulte a documenta��o de gera��o de registros para ver o limite exato.
  • Se voc� adotar as cotas no n�vel da organiza��o, cada organiza��o pode executar no m�ximo 125 jobs simult�neos do Dataflow por padr�o.
  • Cada usu�rio pode fazer at� 15.000 solicita��es de monitoramento por minuto.
  • Cada usu�rio pode fazer at� 60 solicita��es de cria��o de jobs por minuto.
  • Cada usu�rio pode fazer at� 60 solicita��es de modelo de job por minuto.
  • Cada usu�rio pode fazer at� 60 solicita��es de atualiza��o de job por minuto.
  • Cada projeto do Google Cloud recebe os seguintes slots do Shuffle em cada regi�o:
    • asia-east1: 48 slots
    • asia-northeast1: 24 slots
    • asia-northeast3: 32 slots
    • asia-south1: 64 slots
    • asia-southeast1: 64 slots
    • australia-southeast1: 24 slots
    • europe-west1: 640 slots
    • europe-west2: 32 slots
    • europe-west3: 40 slots
    • europe-west4: 512 slots
    • northamerica-northeast1: 512 slots
    • us-central1: 640 slots
    • us-east1: 640 slots
    • us-east4: 64 slots
    • us-west1: 384 slots
    • us-west2: 24 slots
    • us-west3: 24 slots
    • Outras regi�es: 16 slots
    16 slots s�o suficientes para embaralhar aproximadamente 10�TB de dados simultaneamente.
  • Os jobs em lote do Dataflow ser�o cancelados ap�s 30 dias.

Cotas do Compute Engine

Quando voc� executa seu pipeline no servi�o do Dataflow, ele cria inst�ncias do Compute Engine para executar o c�digo do pipeline.

A cota do Compute Engine � especificada por regi�o. Verifique a cota do Compute Engine no seu projeto e solicite os ajustes abaixo, se necess�rio:

  • CPUs: os tipos de m�quina padr�o do Dataflow s�o n1-standard-1 para lote, n1-standard-2 para jobs que usam Streaming Engine e n1-standard-4 para jobs que n�o usam Streaming Engine. O FlexRS usa m�quinas n1-standard-2 por padr�o. Durante a vers�o Beta, o FlexRS usa 90% de VMs preemptivas e 10% de VMs comuns. O Compute Engine calcula o n�mero de CPUs somando a contagem total de CPUs de cada inst�ncia. Por exemplo, a execu��o de 10 inst�ncias n1-standard-4 conta como 40 CPUs. Consulte Tipos de m�quina do Compute Engine para um mapeamento dos tipos de m�quinas em rela��o ao n�mero de CPUs.
  • Endere�os IP em uso: o n�mero de endere�os IP em uso no projeto precisa ser suficiente para acomodar a quantidade desejada de inst�ncias. Para usar 10 inst�ncias do Compute Engine, voc� precisa de 10 endere�os IP em uso.
  • Disco permanente: o Dataflow anexa um disco permanente a cada inst�ncia.
    • O tamanho de disco padr�o � de 250�GB para lote e 400�GB para pipelines de streaming. Para 10 inst�ncias, por padr�o, voc� precisa de 2.500�GB de disco permanente para um job em lote.
    • O tamanho de disco padr�o � de 25 GB para os pipelines em lote do Dataflow Shuffle.
    • O tamanho de disco padr�o � de 30 GB para pipelines de streaming do Streaming Engine.
    • O servi�o do Dataflow est� limitado atualmente a 15 discos permanentes por inst�ncia de worker na execu��o de um job de streaming. Cada disco permanente � local em rela��o a uma virtual machine individual do Compute Engine. A propor��o de 1:1 entre workers e discos � a cota m�nima de recursos.
    • O uso do Compute Engine � baseado no n�mero m�dio de workers e o uso de discos permanentes � baseado no valor exato de --maxNumWorkers. Os discos permanentes s�o redistribu�dos de modo que cada worker tenha um n�mero igual de discos anexados.
  • Grupos regionais gerenciados de inst�ncias: o Dataflow implanta as inst�ncias do Compute Engine como um grupo gerenciado de inst�ncias regionais. Voc� precisa verificar se as cotas relacionadas a seguir est�o dispon�veis:
    • Um grupo de inst�ncias por job do Dataflow
    • Um modelo de inst�ncia por job do Dataflow
    • Um grupo regional gerenciado de inst�ncias por job do Dataflow

Cotas extras

Dependendo das origens e dos coletores usados, talvez voc� tamb�m precise de cotas extras.

  1. Pub/Sub: se estiver usando o Pub/Sub, talvez voc� precise de mais cota. Ao planejar a cota, observe que o processamento de uma mensagem do Pub/Sub envolve tr�s opera��es. Se voc� usar carimbos de data/hora personalizados, ser� preciso dobrar o n�mero esperado de opera��es, j� que o Dataflow cria uma inscri��o separada para rastre�-los.
  2. BigQuery: se estiver usando a API de streaming para BigQuery, ser�o aplicados limites de cota e outras restri��es.

Encontrar e aumentar cotas

Saiba como verificar o uso atual da cota espec�fica do Dataflow:

  1. No console do Google Cloud, acesse APIs e servi�os.
    Acessar APIs e servi�os
  2. Para verificar o uso atual da cota de slots do Shuffle, na guia Cotas, encontre a linha Slots do Shuffle na tabela e, na coluna Gr�fico de uso, clique em Mostrar gr�fico de uso.

Se voc� quiser aumentar sua cota de jobs, entre em contato com o suporte do Google Cloud. N�s aumentaremos o limite para um valor que melhor atenda �s suas necessidades. A cota padr�o � de 25 jobs simult�neos do Dataflow para seu projeto ou 125 jobs simult�neos do Dataflow para sua organiza��o.

Al�m disso, � poss�vel aumentar sua cota de slots do Shuffle para jobs em lote ao enviar uma solicita��o de suporte e especificar o tamanho m�ximo esperado do conjunto de dados simult�neo do Shuffle para todos os jobs no seu projeto. Antes de solicitar mais cota para o Shuffle, execute o pipeline usando o Dataflow Shuffle e verifique o uso real da cota.

Para os jobs de streaming, � poss�vel enviar uma solicita��o ao suporte do Google Cloud Platform para aumentar a capacidade do Streaming Engine. Na solicita��o, especifique a quantidade m�xima de dados que voc� quer embaralhar entre os workers a cada minuto para cada regi�o em que o job � executado.

O servi�o do Dataflow tamb�m usa v�rios componentes do Google Cloud, como BigQuery, Cloud Storage, Pub/Sub e Compute Engine. Esses e outros servi�os do Google Cloud usam cotas para determinar o n�mero m�ximo de recursos que podem ser usados dentro de um projeto. Quando voc� usar o Dataflow, talvez seja necess�rio ajustar as configura��es de cota para esses servi�os.

Dataflow Prime

As cotas e os limites s�o os mesmos para o Dataflow e o Dataflow Prime. Se voc� tiver cotas para o Dataflow, n�o precisar� de cota extra para executar jobs usando o Dataflow Prime.

Limites

Nesta se��o, voc� encontra os limites de produ��o pr�ticos do Dataflow.

Limite Valor
O n�mero m�ximo de workers por pipeline. 1.000
O tamanho m�ximo para uma solicita��o de cria��o de job. Os pipelines com muitas etapas e nomes com um n�vel de detalhe muito altos podem alcan�ar esse limite. 10�MB
Tamanho m�ximo de uma solicita��o de inicializa��o de modelo. 1�MB
O n�mero m�ximo de fragmentos de entrada secund�ria. 20.000
Tamanho m�ximo de um �nico elemento (exceto quando condi��es mais rigorosas s�o aplicadas, por exemplo, Streaming Engine) 2�GB
O tamanho m�ximo do valor de um �nico elemento no Streaming Engine. 80�MB
N�mero m�ximo de Entradas de registro em um determinado per�odo por worker. 15.000 mensagens a cada 30�segundos
N�mero m�ximo de m�tricas personalizadas por projeto. 100
Per�odo em que as recomenda��es ser�o armazenadas. 30 dias
Limites do Streaming Engine Valor
M�ximo de bytes para mensagens do Pub/Sub. 7 MB
Tamanho m�ximo de uma chave grande. Chaves com mais de 64�KB reduzem o desempenho. 2 MB
Tamanho m�ximo de uma entrada secund�ria. 80�MB
Tamanho m�ximo das tags de estado usadas por TagValue e TagBag. 64 KB