Confira neste documento as cotas e os limites que se aplicam ao Dataflow. Para mais informa��es sobre cotas, consulte Cotas da nuvem privada virtual.
Uma cota restringe quanto de um determinado recurso compartilhado do Google Cloud o projeto do Google Cloud pode usar, incluindo hardware, software e componentes de rede. Dessa forma, as cotas fazem parte de um sistema que:
- monitora o uso ou o consumo de produtos e servi�os do Google Cloud;
- restringe o consumo desses recursos por motivos, que garantem imparcialidade e reduzem picos de uso;
- mant�m as configura��es que aplicam automaticamente restri��es prescritas;
- fornece um meio de solicitar ou faz altera��es na cota.
Na maioria dos casos, quando uma cota � excedida, o sistema bloqueia imediatamente o acesso ao recurso relevante do Google. Al�m disso, a tarefa que voc� est� tentando executar falha. Na maioria dos casos, as cotas se aplicam a todos os projetos do Google Cloud. Al�m disso, elas s�o compartilhadas entre todos os aplicativos e endere�os IP que usam esse projeto.
Para aumentar ou diminuir a maioria das cotas, use o console do Google Cloud. Para mais informa��es, consulte Solicitar uma cota maior.
Tamb�m h� limites para os recursos de Dataflow. Esses limites n�o est�o relacionados ao sistema de cotas. N�o � poss�vel mudar os limites, a menos que seja indicado o contr�rio.
O servi�o gerenciado do Dataflow tem as seguintes cotas e limites:
- Cada projeto do Google Cloud pode fazer at� 3.000.000 de solicita��es por minuto.
- Cada job do Dataflow pode usar no m�ximo 2.000 inst�ncias do Compute Engine. Sem especificar uma zona de worker, cada job de streaming usando o Streaming Engine ou um job em lote usando o Dataflow Shuffle baseado em servi�o pode usar no m�ximo 4.000 inst�ncias do Compute Engine.
- Cada projeto do Google Cloud pode executar no m�ximo 25 jobs simult�neos do Dataflow por padr�o.
- Cada worker do Dataflow tem um limite m�ximo de registros que ele pode gerar em um intervalo de tempo. Consulte a documenta��o de gera��o de registros para ver o limite exato.
- Se voc� adotar as cotas no n�vel da organiza��o, cada organiza��o pode executar no m�ximo 125 jobs simult�neos do Dataflow por padr�o.
- Cada usu�rio pode fazer at� 15.000 solicita��es de monitoramento por minuto.
- Cada usu�rio pode fazer at� 60 solicita��es de cria��o de jobs por minuto.
- Cada usu�rio pode fazer at� 60 solicita��es de modelo de job por minuto.
- Cada usu�rio pode fazer at� 60 solicita��es de atualiza��o de job por minuto.
- Cada projeto do Google Cloud recebe os seguintes slots do Shuffle em cada regi�o:
- asia-east1: 48 slots
- asia-northeast1: 24 slots
- asia-northeast3: 32 slots
- asia-south1: 64 slots
- asia-southeast1: 64 slots
- australia-southeast1: 24 slots
- europe-west1: 640 slots
- europe-west2: 32 slots
- europe-west3: 40 slots
- europe-west4: 512 slots
- northamerica-northeast1: 512 slots
- us-central1: 640 slots
- us-east1: 640 slots
- us-east4: 64 slots
- us-west1: 384 slots
- us-west2: 24 slots
- us-west3: 24 slots
- Outras regi�es: 16 slots
- Os jobs em lote do Dataflow ser�o cancelados ap�s 30 dias.
Cotas do Compute Engine
Quando voc� executa seu pipeline no servi�o do Dataflow, ele cria inst�ncias do Compute Engine para executar o c�digo do pipeline.
A cota do Compute Engine � especificada por regi�o. Verifique a cota do Compute Engine no seu projeto e solicite os ajustes abaixo, se necess�rio:
- CPUs: os tipos de m�quina padr�o do Dataflow s�o
n1-standard-1
para lote,n1-standard-2
para jobs que usam Streaming Engine en1-standard-4
para jobs que n�o usam Streaming Engine. O FlexRS usa m�quinasn1-standard-2
por padr�o. Durante a vers�o Beta, o FlexRS usa 90% de VMs preemptivas e 10% de VMs comuns. O Compute Engine calcula o n�mero de CPUs somando a contagem total de CPUs de cada inst�ncia. Por exemplo, a execu��o de 10 inst�nciasn1-standard-4
conta como 40 CPUs. Consulte Tipos de m�quina do Compute Engine para um mapeamento dos tipos de m�quinas em rela��o ao n�mero de CPUs. - Endere�os IP em uso: o n�mero de endere�os IP em uso no projeto precisa ser suficiente para acomodar a quantidade desejada de inst�ncias. Para usar 10 inst�ncias do Compute Engine, voc� precisa de 10 endere�os IP em uso.
- Disco permanente: o Dataflow anexa um disco permanente
a cada inst�ncia.
- O tamanho de disco padr�o � de 250�GB para lote e 400�GB para pipelines de streaming. Para 10 inst�ncias, por padr�o, voc� precisa de 2.500�GB de disco permanente para um job em lote.
- O tamanho de disco padr�o � de 25 GB para os pipelines em lote do Dataflow Shuffle.
- O tamanho de disco padr�o � de 30 GB para pipelines de streaming do Streaming Engine.
- O servi�o do Dataflow est� limitado atualmente a 15 discos permanentes por inst�ncia de worker na execu��o de um job de streaming. Cada disco permanente � local em rela��o a uma virtual machine individual do Compute Engine. A propor��o de 1:1 entre workers e discos � a cota m�nima de recursos.
- O uso do Compute Engine � baseado no n�mero m�dio de workers e o uso de discos permanentes
� baseado no valor exato de
--maxNumWorkers
. Os discos permanentes s�o redistribu�dos de modo que cada worker tenha um n�mero igual de discos anexados.
- Grupos regionais gerenciados de inst�ncias: o Dataflow implanta as
inst�ncias do Compute Engine como um grupo gerenciado de inst�ncias regionais. Voc� precisa
verificar se as cotas relacionadas a seguir est�o dispon�veis:
- Um grupo de inst�ncias por job do Dataflow
- Um modelo de inst�ncia por job do Dataflow
- Um grupo regional gerenciado de inst�ncias por job do Dataflow
Cotas extras
Dependendo das origens e dos coletores usados, talvez voc� tamb�m precise de cotas extras.
- Pub/Sub: se estiver usando o Pub/Sub, talvez voc� precise de mais cota. Ao planejar a cota, observe que o processamento de uma mensagem do Pub/Sub envolve tr�s opera��es. Se voc� usar carimbos de data/hora personalizados, ser� preciso dobrar o n�mero esperado de opera��es, j� que o Dataflow cria uma inscri��o separada para rastre�-los.
- BigQuery: se estiver usando a API de streaming para BigQuery, ser�o aplicados limites de cota e outras restri��es.
Encontrar e aumentar cotas
Saiba como verificar o uso atual da cota espec�fica do Dataflow:
- No console do Google Cloud, acesse APIs e servi�os.
Acessar APIs e servi�os - Para verificar o uso atual da cota de slots do Shuffle, na guia Cotas, encontre a linha Slots do Shuffle na tabela e, na coluna Gr�fico de uso, clique em Mostrar gr�fico de uso.
Se voc� quiser aumentar sua cota de jobs, entre em contato com o suporte do Google Cloud. N�s aumentaremos o limite para um valor que melhor atenda �s suas necessidades. A cota padr�o � de 25 jobs simult�neos do Dataflow para seu projeto ou 125 jobs simult�neos do Dataflow para sua organiza��o.
Al�m disso, � poss�vel aumentar sua cota de slots do Shuffle para jobs em lote ao enviar uma solicita��o de suporte e especificar o tamanho m�ximo esperado do conjunto de dados simult�neo do Shuffle para todos os jobs no seu projeto. Antes de solicitar mais cota para o Shuffle, execute o pipeline usando o Dataflow Shuffle e verifique o uso real da cota.
Para os jobs de streaming, � poss�vel enviar uma solicita��o ao suporte do Google Cloud Platform para aumentar a capacidade do Streaming Engine. Na solicita��o, especifique a quantidade m�xima de dados que voc� quer embaralhar entre os workers a cada minuto para cada regi�o em que o job � executado.
O servi�o do Dataflow tamb�m usa v�rios componentes do Google Cloud, como BigQuery, Cloud Storage, Pub/Sub e Compute Engine. Esses e outros servi�os do Google Cloud usam cotas para determinar o n�mero m�ximo de recursos que podem ser usados dentro de um projeto. Quando voc� usar o Dataflow, talvez seja necess�rio ajustar as configura��es de cota para esses servi�os.
Dataflow Prime
As cotas e os limites s�o os mesmos para o Dataflow e o Dataflow Prime. Se voc� tiver cotas para o Dataflow, n�o precisar� de cota extra para executar jobs usando o Dataflow Prime.
Limites
Nesta se��o, voc� encontra os limites de produ��o pr�ticos do Dataflow.
Limite | Valor |
---|---|
O n�mero m�ximo de workers por pipeline. | 1.000 |
O tamanho m�ximo para uma solicita��o de cria��o de job. Os pipelines com muitas etapas e nomes com um n�vel de detalhe muito altos podem alcan�ar esse limite. | 10�MB |
Tamanho m�ximo de uma solicita��o de inicializa��o de modelo. | 1�MB |
O n�mero m�ximo de fragmentos de entrada secund�ria. | 20.000 |
Tamanho m�ximo de um �nico elemento (exceto quando condi��es mais rigorosas s�o aplicadas, por exemplo, Streaming Engine) | 2�GB |
O tamanho m�ximo do valor de um �nico elemento no Streaming Engine. | 80�MB |
N�mero m�ximo de Entradas de registro em um determinado per�odo por worker. | 15.000 mensagens a cada 30�segundos |
N�mero m�ximo de m�tricas personalizadas por projeto. | 100 |
Per�odo em que as recomenda��es ser�o armazenadas. | 30 dias |
Limites do Streaming Engine | Valor |
---|---|
M�ximo de bytes para mensagens do Pub/Sub. | 7 MB |
Tamanho m�ximo de uma chave grande. Chaves com mais de 64�KB reduzem o desempenho. | 2 MB |
Tamanho m�ximo de uma entrada secund�ria. | 80�MB |
Tamanho m�ximo das tags de estado usadas por TagValue e TagBag . |
64 KB |