Voltar ao blog
Monitoramento 10 min de leitura

Como monitorar sua infraestrutura com Zabbix e Grafana

Monitoramento proativo nao e luxo de grande empresa. Com Zabbix e Grafana, ate PMEs conseguem ter visibilidade total da sua infraestrutura — e agir antes que os problemas afetem clientes.

Imagine a seguinte cena: sao 3 da manha e o site principal da sua empresa cai. O banco de dados encheu o disco. Ninguem percebe ate as 8h, quando o primeiro cliente reclama no WhatsApp. Ate la, voce ja perdeu 5 horas de vendas, formularios e credibilidade.

Agora imagine outra cena: as 3 da manha, o disco atinge 85% de uso. Um alerta automatico e disparado. O sistema de limpeza entra em acao. As 8h, quando o expediente comeca, tudo esta funcionando normalmente — e voce nem precisou acordar.

A diferenca entre essas duas cenas e o monitoramento 24/7. E neste artigo, vamos explicar como ele funciona usando duas das ferramentas mais poderosas do mercado: Zabbix e Grafana.

Por que monitoramento importa para PMEs

Existe um mito de que monitoramento de infraestrutura e coisa para grandes empresas com datacenters proprios e equipes de NOC. Na pratica, e exatamente o contrario: quanto menor a empresa, maior o impacto de uma queda.

Uma grande corporacao tem redundancia, equipes de plantao e SLAs com fornecedores. Uma PME geralmente tem um servidor, uma pessoa que "entende de TI" e nenhum alerta configurado. Quando algo quebra, o diagnostico comeca do zero.

Monitoramento resolve isso ao fornecer tres capacidades fundamentais:

  • Visibilidade: saber exatamente o que esta acontecendo em tempo real
  • Prevencao: identificar tendencias antes que virem problemas
  • Diagnostico rapido: quando algo falha, saber onde e por que em segundos

O que e o Zabbix e o que ele faz

O Zabbix e uma plataforma open source de monitoramento criada em 2001 e usada por empresas como Dell, Salesforce e ICANN. Ele coleta metricas de servidores, redes, aplicacoes e servicos, e dispara alertas quando algo sai do normal.

Os componentes principais do Zabbix sao:

Agentes

Um agente e um pequeno software instalado no servidor que coleta metricas locais — uso de CPU, memoria, disco, rede, processos ativos, portas abertas. O agente envia esses dados para o servidor Zabbix em intervalos regulares (geralmente a cada 30 ou 60 segundos).

A versao mais recente, o Zabbix Agent 2, e escrita em Go e suporta plugins nativos para MySQL, Docker, Redis, PostgreSQL e dezenas de outros servicos.

Templates

Templates sao conjuntos pre-configurados de metricas, triggers e graficos para um tipo especifico de servico. Em vez de configurar manualmente cada metrica, voce associa um template ao host e tudo ja vem pronto.

No nosso ambiente, usamos os seguintes templates:

Linux by Zabbix Agent

CPU, memoria, disco, rede, processos, filesystems

Docker by Zabbix Agent 2

Status de containers, uso de CPU e memoria por container

MySQL by Zabbix Agent 2

Queries por segundo, conexoes, slow queries, replicacao

Nginx by Zabbix Agent

Requisicoes ativas, aceitas, respondidas, taxa de erros

Redis by Zabbix Agent 2

Memoria, keys, hit rate, conexoes, persistencia

Website Certificate

Validade SSL, dias ate expiracao, emissor, fingerprint

Triggers e alertas

Triggers sao regras condicionais que avaliam as metricas coletadas. Quando uma condicao e atendida — por exemplo, disco > 90% ou CPU > 95% por 5 minutos — o Zabbix gera um alerta.

Os alertas sao classificados por severidade:

Info

Informativo

Warning

Atencao

Average

Medio

High

Alto

Disaster

Critico

Cada nivel de severidade pode acionar canais diferentes de notificacao: email para warnings, webhook para alertas medios, e WhatsApp ou ligacao telefonica para situacoes criticas.

O que o Grafana adiciona

O Zabbix coleta e armazena dados, mas seus dashboards nativos sao limitados. E ai que entra o Grafana: uma plataforma de visualizacao que transforma dados brutos em dashboards interativos e visualmente claros.

O Grafana se conecta ao Zabbix como datasource e permite criar paineis personalizados com graficos de linha, barras, gauges, tabelas, mapas de calor e muito mais. A grande vantagem e a flexibilidade: voce monta o dashboard exatamente como precisa.

Na pratica, usamos o Grafana para:

  • Dashboard executivo: visao geral de saude do servidor em uma unica tela
  • Analise historica: comparar performance ao longo de semanas ou meses
  • Alertas visuais: paineis que mudam de cor quando algo esta fora do normal
  • Compartilhamento: dar acesso de leitura para clientes verem seus proprios recursos

Exemplo real: nosso ambiente de producao

Para mostrar que isso nao e teoria, vamos descrever o que monitoramos no nosso proprio servidor de producao — o mesmo que hospeda sites de clientes.

O servidor tem 32 cores de CPU, 121 GB de RAM, SSD de 197 GB e storage Ceph de 5 TB. Nele rodam 7 sites, 7 containers Docker (Grafana, Zabbix, Keycloak, GLPI e proxies) e todos os servicos de hospedagem.

O Zabbix Agent 2 coleta mais de 400 metricas a cada minuto. Algumas das mais importantes:

Metricas monitoradas em tempo real

CPU (por core e total) a cada 30s
Memoria RAM (usada, cache, swap) a cada 30s
Disco (I/O, latencia, espaco) a cada 60s
Rede (throughput, erros, pacotes) a cada 30s
MySQL (queries/s, conexoes, slow queries) a cada 60s
Nginx (requests/s, conexoes ativas) a cada 30s
Docker (status de cada container) a cada 60s
Certificados SSL (dias ate expiracao) a cada 12h

Como os alertas funcionam na pratica

Ter metricas sem alertas e como ter cameras de seguranca que ninguem assiste. O valor real do monitoramento esta na capacidade de notificar a pessoa certa, no canal certo, no momento certo.

No nosso ambiente, configuramos uma cadeia de notificacao com escalonamento:

  1. 1.
    Email imediato

    Todo alerta de severidade "Average" ou superior gera um email com detalhes do problema, servidor afetado e link direto para o dashboard.

  2. 2.
    Webhook para sistemas internos

    Alertas "High" disparam webhooks que podem criar tickets automaticamente no GLPI ou registrar incidentes.

  3. 3.
    WhatsApp para emergencias

    Alertas "Disaster" — servidor fora do ar, banco corrompido, disco cheio — enviam mensagem direta via API do WhatsApp para o responsavel tecnico.

Esse escalonamento evita a "fadiga de alertas" — aquela situacao em que tantas notificacoes sao enviadas que a equipe comeca a ignorar todas.

Metricas que realmente importam

Com centenas de metricas disponiveis, e facil se perder em dados que nao geram acao. Depois de anos gerenciando servidores, identificamos as metricas que realmente importam para hospedagem:

CPU e load average

O uso de CPU isolado pode ser enganoso — um pico de 100% por 2 segundos durante um deploy e normal. O que importa e o load average ao longo de 5 e 15 minutos. Se o load average de 15 minutos consistentemente ultrapassa o numero de cores (no nosso caso, 32), algo precisa de atencao.

Memoria e swap

RAM em uso alto nao e necessariamente problema — o Linux usa memoria livre para cache de disco, o que e desejavel. O alerta real e quando o swap comeca a ser usado. Swap significa que a RAM acabou e o sistema esta usando disco como memoria, o que e ordens de grandeza mais lento.

Disco: espaco e I/O

Espaco em disco e obvio, mas o que muitos ignoram e o I/O wait — o tempo que a CPU fica esperando o disco responder. Um I/O wait alto com CPU baixa indica que o disco e o gargalo, comum em servidores com HDD ou quando multiplos sites fazem queries pesadas simultaneamente.

Tempo de resposta e uptime

Monitoramos o tempo de resposta HTTP de cada site a cada 60 segundos. Se um site que normalmente responde em 200ms comeca a levar 2 segundos, algo mudou — mesmo que o servidor nao esteja "fora do ar". Essa metrica pega problemas de performance antes que virem downtime.

Quanto custa implementar isso

Zabbix e Grafana sao 100% open source e gratuitos. Nao ha custo de licenca. O investimento real esta em:

  • Instalacao e configuracao: instalar os componentes, configurar agentes, templates e alertas
  • Criacao de dashboards: montar os paineis do Grafana com as metricas relevantes
  • Tuning de alertas: ajustar thresholds para evitar falsos positivos e falsos negativos
  • Manutencao continua: atualizar templates, adicionar novos hosts, revisar triggers

Para uma PME com 1 a 5 servidores, o setup completo pode ser feito em 1 a 2 dias por um profissional experiente. Na ITS Connect, o monitoramento ja vem incluso na hospedagem gerenciada. Comparado com o custo de um downtime nao detectado — perda de vendas, reputacao e horas de trabalho para diagnosticar — o investimento se paga na primeira ocorrencia evitada.

Monitoramento como cultura, nao como ferramenta

A ferramenta e so o comeco. O verdadeiro valor do monitoramento esta em criar uma cultura de observabilidade na empresa. Isso significa:

  • Revisar dashboards semanalmente, nao apenas quando algo quebra
  • Fazer post-mortem de incidentes para melhorar triggers
  • Documentar o que cada alerta significa e qual a acao esperada
  • Capacitar a equipe para interpretar metricas basicas

Um dashboard bonito que ninguem olha e apenas decoracao. O monitoramento so funciona quando faz parte da rotina.

Quer implementar Zabbix e Grafana na sua empresa?

Configuramos e gerenciamos seu monitoramento do zero. Dashboard personalizado, alertas e suporte.

Artigos relacionados