Como monitorar sua infraestrutura com Zabbix e Grafana · ITS Connect

Imagine a seguinte cena: são 3 da manhã e o site principal da sua empresa cai. O banco de dados encheu o disco. Ninguém percebe até as 8h, quando o primeiro cliente reclama no WhatsApp. Até lá, você já perdeu 5 horas de vendas, formulários e credibilidade.

Agora imagine outra cena: às 3 da manhã, o disco atinge 85% de uso. Um alerta automático é disparado. O sistema de limpeza entra em ação. Às 8h, quando o expediente começa, tudo está funcionando normalmente, e você nem precisou acordar.

A diferença entre essas duas cenas é o monitoramento 24/7. E neste artigo, vamos explicar como ele funciona usando duas das ferramentas mais poderosas do mercado: Zabbix e Grafana.

·Por que monitoramento importa para PMEs

Existe um mito de que monitoramento de infraestrutura é coisa para grandes empresas com datacenters próprios e equipes de NOC. Na prática, é exatamente o contrário: quanto menor a empresa, maior o impacto de uma queda.

Uma grande corporação tem redundância, equipes de plantão e SLAs com fornecedores. Uma PME geralmente tem um servidor, uma pessoa que "entende de TI" e nenhum alerta configurado. Quando algo quebra, o diagnóstico começa do zero.

Monitoramento resolve isso ao fornecer três capacidades fundamentais:

Visibilidade: saber exatamente o que está acontecendo em tempo real
Prevenção: identificar tendências antes que virem problemas
Diagnóstico rápido: quando algo falha, saber onde e por que em segundos

·O que é o Zabbix e o que ele faz

O Zabbix é uma plataforma open source de monitoramento criada em 2001 e usada por empresas como Dell, Salesforce e ICANN. Ele coleta métricas de servidores, redes, aplicações e serviços, e dispara alertas quando algo sai do normal.

Os componentes principais do Zabbix são:

Agentes

Um agente é um pequeno software instalado no servidor que coleta métricas locais: uso de CPU, memória, disco, rede, processos ativos, portas abertas. O agente envia esses dados para o servidor Zabbix em intervalos regulares (geralmente a cada 30 ou 60 segundos).

A versão mais recente, o Zabbix Agent 2, é escrita em Go e suporta plugins nativos para MySQL, Docker, Redis, PostgreSQL e dezenas de outros serviços.

Templates

Templates são conjuntos pré-configurados de métricas, triggers e gráficos para um tipo específico de serviço. Em vez de configurar manualmente cada métrica, você associa um template ao host e tudo já vem pronto.

No nosso ambiente, usamos os seguintes templates:

Linux by Zabbix Agent: CPU, memória, disco, rede, processos, filesystems
Docker by Zabbix Agent 2: status de containers, uso de CPU e memória por container
MySQL by Zabbix Agent 2: queries por segundo, conexões, slow queries, replicação
Nginx by Zabbix Agent: requisições ativas, aceitas, respondidas, taxa de erros
Redis by Zabbix Agent 2: memória, keys, hit rate, conexões, persistência
Website Certificate: validade SSL, dias até expiração, emissor, fingerprint

Triggers e alertas

Triggers são regras condicionais que avaliam as métricas coletadas. Quando uma condição é atendida (por exemplo, disco > 90% ou CPU > 95% por 5 minutos), o Zabbix gera um alerta.

Os alertas são classificados por severidade:

Info: informativo, sem ação imediata
Warning: atenção, acompanhar a tendência
Average: médio, requer investigação
High: alto, ação rápida necessária
Disaster: crítico, intervenção imediata

Cada nível de severidade pode acionar canais diferentes de notificação: email para warnings, webhook para alertas médios, e WhatsApp ou ligação telefônica para situações críticas.

·O que o Grafana adiciona

O Zabbix coleta e armazena dados, mas seus dashboards nativos são limitados. E aí que entra o Grafana: uma plataforma de visualização que transforma dados brutos em dashboards interativos e visualmente claros.

O Grafana se conecta ao Zabbix como datasource e permite criar painéis personalizados com gráficos de linha, barras, gauges, tabelas, mapas de calor e muito mais. A grande vantagem é a flexibilidade: você monta o dashboard exatamente como precisa.

Na prática, usamos o Grafana para:

Dashboard executivo: visão geral de saúde do servidor em uma única tela
Análise histórica: comparar performance ao longo de semanas ou meses
Alertas visuais: painéis que mudam de cor quando algo está fora do normal
Compartilhamento: dar acesso de leitura para clientes verem seus próprios recursos

·Exemplo real: nosso ambiente de produção

Para mostrar que isso não é teoria, vamos descrever o que monitoramos no nosso próprio servidor de produção, o mesmo que hospeda sites de clientes.

O servidor tem 32 cores de CPU, 121 GB de RAM, SSD de 197 GB e storage Ceph de 5 TB. Nele rodam 7 sites, 7 containers Docker (Grafana, Zabbix, Keycloak, GLPI e proxies) e todos os serviços de hospedagem.

O Zabbix Agent 2 coleta mais de 400 métricas a cada minuto. Algumas das mais importantes:

· Métricas monitoradas em tempo real

CPU por core e total (30s) · Memória RAM, cache e swap (30s) · Disco I/O, latência e espaço (60s) · Rede throughput, erros e pacotes (30s) · MySQL queries/s, conexões e slow queries (60s) · Nginx requests/s e conexões ativas (30s) · Docker status de cada container (60s) · Certificados SSL dias até expiração (12h).

·Como os alertas funcionam na prática

Ter métricas sem alertas é como ter câmeras de segurança que ninguém assiste. O valor real do monitoramento está na capacidade de notificar a pessoa certa, no canal certo, no momento certo.

No nosso ambiente, configuramos uma cadeia de notificação com escalonamento:

Email imediato

Todo alerta de severidade "Average" ou superior gera um email com detalhes do problema, servidor afetado e link direto para o dashboard.

Webhook para sistemas internos

Alertas "High" disparam webhooks que podem criar tickets automaticamente no GLPI ou registrar incidentes.

WhatsApp para emergências

Alertas "Disaster" (servidor fora do ar, banco corrompido, disco cheio) enviam mensagem direta via API do WhatsApp para o responsável técnico.

Esse escalonamento evita a "fadiga de alertas": aquela situação em que tantas notificações são enviadas que a equipe começa a ignorar todas.

·Métricas que realmente importam

Com centenas de métricas disponíveis, é fácil se perder em dados que não geram ação. Depois de anos gerenciando servidores, identificamos as métricas que realmente importam para hospedagem:

CPU e load average

O uso de CPU isolado pode ser enganoso: um pico de 100% por 2 segundos durante um deploy é normal. O que importa é o load average ao longo de 5 e 15 minutos. Se o load average de 15 minutos consistentemente ultrapassa o número de cores (no nosso caso, 32), algo precisa de atenção.

Memória e swap

RAM em uso alto não é necessariamente problema. O Linux usa memória livre para cache de disco, o que é desejável. O alerta real é quando o swap começa a ser usado. Swap significa que a RAM acabou e o sistema está usando disco como memória, o que é ordens de grandeza mais lento.

Disco: espaço e I/O

Espaço em disco é óbvio, mas o que muitos ignoram é o I/O wait: o tempo que a CPU fica esperando o disco responder. Um I/O wait alto com CPU baixa indica que o disco é o gargalo, comum em servidores com HDD ou quando múltiplos sites fazem queries pesadas simultaneamente.

Tempo de resposta e uptime

Monitoramos o tempo de resposta HTTP de cada site a cada 60 segundos. Se um site que normalmente responde em 200ms começa a levar 2 segundos, algo mudou, mesmo que o servidor não esteja "fora do ar". Essa métrica pega problemas de performance antes que virem downtime.

·Quanto custa implementar isso

Zabbix e Grafana são 100% open source e gratuitos. Não há custo de licença. O investimento real está em:

Instalação e configuração: instalar os componentes, configurar agentes, templates e alertas
Criação de dashboards: montar os painéis do Grafana com as métricas relevantes
Tuning de alertas: ajustar thresholds para evitar falsos positivos e falsos negativos
Manutenção contínua: atualizar templates, adicionar novos hosts, revisar triggers

Para uma PME com 1 a 5 servidores, o setup completo pode ser feito em 1 a 2 dias por um profissional experiente. Na ITS Connect, o monitoramento já vem incluso na hospedagem gerenciada. Comparado com o custo de um downtime não detectado (perda de vendas, reputação e horas de trabalho para diagnosticar), o investimento se paga na primeira ocorrência evitada.

·Monitoramento como cultura, não como ferramenta

A ferramenta é só o começo. O verdadeiro valor do monitoramento está em criar uma cultura de observabilidade na empresa. Isso significa:

Revisar dashboards semanalmente, não apenas quando algo quebra
Fazer post-mortem de incidentes para melhorar triggers
Documentar o que cada alerta significa e qual a ação esperada
Capacitar a equipe para interpretar métricas básicas

Um dashboard bonito que ninguém olha é apenas decoração. O monitoramento só funciona quando faz parte da rotina.

· Quer implementar Zabbix e Grafana na sua empresa?

Configuramos e gerenciamos seu monitoramento do zero. Dashboard personalizado, alertas e suporte: tudo já incluso nos planos da ITS Connect.

ComomonitorarsuainfraestruturacomZabbixeGrafana