Como monitorar sua infraestrutura com Zabbix e Grafana
Monitoramento proativo nao e luxo de grande empresa. Com Zabbix e Grafana, ate PMEs conseguem ter visibilidade total da sua infraestrutura — e agir antes que os problemas afetem clientes.
Imagine a seguinte cena: sao 3 da manha e o site principal da sua empresa cai. O banco de dados encheu o disco. Ninguem percebe ate as 8h, quando o primeiro cliente reclama no WhatsApp. Ate la, voce ja perdeu 5 horas de vendas, formularios e credibilidade.
Agora imagine outra cena: as 3 da manha, o disco atinge 85% de uso. Um alerta automatico e disparado. O sistema de limpeza entra em acao. As 8h, quando o expediente comeca, tudo esta funcionando normalmente — e voce nem precisou acordar.
A diferenca entre essas duas cenas e o monitoramento 24/7. E neste artigo, vamos explicar como ele funciona usando duas das ferramentas mais poderosas do mercado: Zabbix e Grafana.
Por que monitoramento importa para PMEs
Existe um mito de que monitoramento de infraestrutura e coisa para grandes empresas com datacenters proprios e equipes de NOC. Na pratica, e exatamente o contrario: quanto menor a empresa, maior o impacto de uma queda.
Uma grande corporacao tem redundancia, equipes de plantao e SLAs com fornecedores. Uma PME geralmente tem um servidor, uma pessoa que "entende de TI" e nenhum alerta configurado. Quando algo quebra, o diagnostico comeca do zero.
Monitoramento resolve isso ao fornecer tres capacidades fundamentais:
- Visibilidade: saber exatamente o que esta acontecendo em tempo real
- Prevencao: identificar tendencias antes que virem problemas
- Diagnostico rapido: quando algo falha, saber onde e por que em segundos
O que e o Zabbix e o que ele faz
O Zabbix e uma plataforma open source de monitoramento criada em 2001 e usada por empresas como Dell, Salesforce e ICANN. Ele coleta metricas de servidores, redes, aplicacoes e servicos, e dispara alertas quando algo sai do normal.
Os componentes principais do Zabbix sao:
Agentes
Um agente e um pequeno software instalado no servidor que coleta metricas locais — uso de CPU, memoria, disco, rede, processos ativos, portas abertas. O agente envia esses dados para o servidor Zabbix em intervalos regulares (geralmente a cada 30 ou 60 segundos).
A versao mais recente, o Zabbix Agent 2, e escrita em Go e suporta plugins nativos para MySQL, Docker, Redis, PostgreSQL e dezenas de outros servicos.
Templates
Templates sao conjuntos pre-configurados de metricas, triggers e graficos para um tipo especifico de servico. Em vez de configurar manualmente cada metrica, voce associa um template ao host e tudo ja vem pronto.
No nosso ambiente, usamos os seguintes templates:
Linux by Zabbix Agent
CPU, memoria, disco, rede, processos, filesystems
Docker by Zabbix Agent 2
Status de containers, uso de CPU e memoria por container
MySQL by Zabbix Agent 2
Queries por segundo, conexoes, slow queries, replicacao
Nginx by Zabbix Agent
Requisicoes ativas, aceitas, respondidas, taxa de erros
Redis by Zabbix Agent 2
Memoria, keys, hit rate, conexoes, persistencia
Website Certificate
Validade SSL, dias ate expiracao, emissor, fingerprint
Triggers e alertas
Triggers sao regras condicionais que avaliam as metricas coletadas. Quando uma condicao e atendida — por exemplo, disco > 90% ou CPU > 95% por 5 minutos — o Zabbix gera um alerta.
Os alertas sao classificados por severidade:
Info
Informativo
Warning
Atencao
Average
Medio
High
Alto
Disaster
Critico
Cada nivel de severidade pode acionar canais diferentes de notificacao: email para warnings, webhook para alertas medios, e WhatsApp ou ligacao telefonica para situacoes criticas.
O que o Grafana adiciona
O Zabbix coleta e armazena dados, mas seus dashboards nativos sao limitados. E ai que entra o Grafana: uma plataforma de visualizacao que transforma dados brutos em dashboards interativos e visualmente claros.
O Grafana se conecta ao Zabbix como datasource e permite criar paineis personalizados com graficos de linha, barras, gauges, tabelas, mapas de calor e muito mais. A grande vantagem e a flexibilidade: voce monta o dashboard exatamente como precisa.
Na pratica, usamos o Grafana para:
- Dashboard executivo: visao geral de saude do servidor em uma unica tela
- Analise historica: comparar performance ao longo de semanas ou meses
- Alertas visuais: paineis que mudam de cor quando algo esta fora do normal
- Compartilhamento: dar acesso de leitura para clientes verem seus proprios recursos
Exemplo real: nosso ambiente de producao
Para mostrar que isso nao e teoria, vamos descrever o que monitoramos no nosso proprio servidor de producao — o mesmo que hospeda sites de clientes.
O servidor tem 32 cores de CPU, 121 GB de RAM, SSD de 197 GB e storage Ceph de 5 TB. Nele rodam 7 sites, 7 containers Docker (Grafana, Zabbix, Keycloak, GLPI e proxies) e todos os servicos de hospedagem.
O Zabbix Agent 2 coleta mais de 400 metricas a cada minuto. Algumas das mais importantes:
Metricas monitoradas em tempo real
Como os alertas funcionam na pratica
Ter metricas sem alertas e como ter cameras de seguranca que ninguem assiste. O valor real do monitoramento esta na capacidade de notificar a pessoa certa, no canal certo, no momento certo.
No nosso ambiente, configuramos uma cadeia de notificacao com escalonamento:
-
1.
Email imediato
Todo alerta de severidade "Average" ou superior gera um email com detalhes do problema, servidor afetado e link direto para o dashboard.
-
2.
Webhook para sistemas internos
Alertas "High" disparam webhooks que podem criar tickets automaticamente no GLPI ou registrar incidentes.
-
3.
WhatsApp para emergencias
Alertas "Disaster" — servidor fora do ar, banco corrompido, disco cheio — enviam mensagem direta via API do WhatsApp para o responsavel tecnico.
Esse escalonamento evita a "fadiga de alertas" — aquela situacao em que tantas notificacoes sao enviadas que a equipe comeca a ignorar todas.
Metricas que realmente importam
Com centenas de metricas disponiveis, e facil se perder em dados que nao geram acao. Depois de anos gerenciando servidores, identificamos as metricas que realmente importam para hospedagem:
CPU e load average
O uso de CPU isolado pode ser enganoso — um pico de 100% por 2 segundos durante um deploy e normal. O que importa e o load average ao longo de 5 e 15 minutos. Se o load average de 15 minutos consistentemente ultrapassa o numero de cores (no nosso caso, 32), algo precisa de atencao.
Memoria e swap
RAM em uso alto nao e necessariamente problema — o Linux usa memoria livre para cache de disco, o que e desejavel. O alerta real e quando o swap comeca a ser usado. Swap significa que a RAM acabou e o sistema esta usando disco como memoria, o que e ordens de grandeza mais lento.
Disco: espaco e I/O
Espaco em disco e obvio, mas o que muitos ignoram e o I/O wait — o tempo que a CPU fica esperando o disco responder. Um I/O wait alto com CPU baixa indica que o disco e o gargalo, comum em servidores com HDD ou quando multiplos sites fazem queries pesadas simultaneamente.
Tempo de resposta e uptime
Monitoramos o tempo de resposta HTTP de cada site a cada 60 segundos. Se um site que normalmente responde em 200ms comeca a levar 2 segundos, algo mudou — mesmo que o servidor nao esteja "fora do ar". Essa metrica pega problemas de performance antes que virem downtime.
Quanto custa implementar isso
Zabbix e Grafana sao 100% open source e gratuitos. Nao ha custo de licenca. O investimento real esta em:
- Instalacao e configuracao: instalar os componentes, configurar agentes, templates e alertas
- Criacao de dashboards: montar os paineis do Grafana com as metricas relevantes
- Tuning de alertas: ajustar thresholds para evitar falsos positivos e falsos negativos
- Manutencao continua: atualizar templates, adicionar novos hosts, revisar triggers
Para uma PME com 1 a 5 servidores, o setup completo pode ser feito em 1 a 2 dias por um profissional experiente. Na ITS Connect, o monitoramento ja vem incluso na hospedagem gerenciada. Comparado com o custo de um downtime nao detectado — perda de vendas, reputacao e horas de trabalho para diagnosticar — o investimento se paga na primeira ocorrencia evitada.
Monitoramento como cultura, nao como ferramenta
A ferramenta e so o comeco. O verdadeiro valor do monitoramento esta em criar uma cultura de observabilidade na empresa. Isso significa:
- Revisar dashboards semanalmente, nao apenas quando algo quebra
- Fazer post-mortem de incidentes para melhorar triggers
- Documentar o que cada alerta significa e qual a acao esperada
- Capacitar a equipe para interpretar metricas basicas
Um dashboard bonito que ninguem olha e apenas decoracao. O monitoramento so funciona quando faz parte da rotina.
Quer implementar Zabbix e Grafana na sua empresa?
Configuramos e gerenciamos seu monitoramento do zero. Dashboard personalizado, alertas e suporte.