E9 — AIOps na Prática: O Que a IA Já Faz em Operações Hoje

E9 — AIOps na Prática: O Que a IA Já Faz em Operações Hoje

Extensão C · AIOps e IA Aplicada a DevOps · Artigo E9 de E12 Prof. Ricardo Matos — Dominando DevOps & Cloud em 1 Ano


Separando o Real do Hype

Poucas áreas da tecnologia acumulam tanto entusiasmo e tanta confusão simultâneos quanto a aplicação de inteligência artificial a operações de software. Vendors prometem sistemas que "resolvem incidentes automaticamente", "preveem falhas antes que aconteçam" e "eliminam o trabalho manual de operações". Parte disso já existe e funciona. Parte é aspiracional. Parte é marketing reembalado de funcionalidades que existem há anos sob outro nome.

Este artigo é uma avaliação honesta do estado atual: o que a IA já faz em operações com resultado comprovado, onde ainda é promessa, e como um engenheiro pode começar a aplicar essas ferramentas sem se perder em hype.

AIOps é o termo consolidado para a aplicação de machine learning e análise de dados a operações de TI. O conceito foi cunhado pelo Gartner em 2017 e desde então expandiu para cobrir desde correlação de alertas até geração automática de código de infraestrutura. Para este artigo, é útil dividir o território em quatro categorias por maturidade.

Categoria 1: Consolidado e Funcionando

Detecção de Anomalias em Métricas

A detecção de anomalias em séries temporais é o caso de uso mais maduro do AIOps. O problema é bem definido: dado o comportamento histórico de uma métrica (taxa de requisições, latência, uso de CPU), identificar quando o valor atual desvia significativamente do esperado — considerando sazonalidade, tendências e padrões de dia da semana.

O AWS CloudWatch Anomaly Detection e o Azure Monitor com Dynamic Thresholds resolvem exatamente esse problema. Em vez de configurar manualmente um alerta "dispare quando a latência ultrapassar 500ms", é possível configurar "dispare quando a latência estiver fora do intervalo esperado para este horário e dia da semana". O modelo aprende com 14 dias de histórico e ajusta os limites automaticamente.

# boto3 — configurar Anomaly Detector no CloudWatch
import boto3

cloudwatch = boto3.client('cloudwatch', region_name='sa-east-1')

# Criar um anomaly detector para a métrica de latência
cloudwatch.put_anomaly_detector(
    Namespace='MinhaApp',
    MetricName='Latencia_p99',
    Dimensions=[
        {'Name': 'Servico', 'Value': 'order-service'},
    ],
    Stat='p99',
    Configuration={
        # Excluir fins de semana do modelo (comportamento diferente)
        'ExcludedTimeRanges': [],
        'MetricTimezone': 'America/Sao_Paulo'
    }
)

# Criar alerta baseado no anomaly detector
cloudwatch.put_metric_alarm(
    AlarmName='order-service-latencia-anomalia',
    AlarmDescription='Latência p99 fora do padrão esperado',
    # ANOMALY_DETECTION_BAND retorna o intervalo esperado pelo modelo
    Metrics=[
        {
            'Id': 'latencia',
            'MetricStat': {
                'Metric': {
                    'Namespace': 'MinhaApp',
                    'MetricName': 'Latencia_p99',
                    'Dimensions': [{'Name': 'Servico', 'Value': 'order-service'}]
                },
                'Period': 300,
                'Stat': 'p99'
            }
        },
        {
            'Id': 'banda_esperada',
            'Expression': 'ANOMALY_DETECTION_BAND(latencia, 2)',
            # 2 = desvios padrão acima/abaixo do esperado
        }
    ],
    ComparisonOperator': 'GreaterThanUpperThreshold',
    ThresholdMetricId': 'banda_esperada',
    EvaluationPeriods': 3,
    TreatMissingData': 'notBreaching',
    AlarmActions': ['arn:aws:sns:sa-east-1:123456789012:alertas-criticos']
)

Correlação de Alertas e Redução de Ruído

Sistemas de observabilidade modernos geram centenas ou milhares de alertas durante um incidente. Um serviço cai, e imediatamente disparam alertas de latência, de taxa de erro, de health check, de filas acumulando, de dependentes que começam a falhar em cascata. Sem correlação, o engenheiro de plantão recebe 50 notificações sobre o mesmo problema raiz.

A correlação de alertas — agrupar alertas relacionados em um único incidente — é a funcionalidade central do PagerDuty, Opsgenie e ferramentas similares. O que o machine learning adiciona é a capacidade de aprender quais alertas tendem a aparecer juntos, qual deles geralmente é a causa raiz, e qual a sequência temporal típica — sem configuração manual de regras de correlação.

O Prometheus AlertManager sozinho não faz isso (tem agrupamento por labels, mas não correlação inteligente). Ferramentas como o AWS DevOps Guru e o Dynatrace Davis aplicam ML para reduzir dezenas de alertas a um único evento de "problema detectado" com causa raiz inferida.

Análise Inteligente de Logs

A busca em logs com expressões regulares e filtros manuais existe há décadas. O que o ML adiciona é a capacidade de classificar logs sem configuração prévia: identificar quais mensagens de log são "normais para este horário", quais são padrões novos que nunca apareceram antes, e quais correlacionam com degradações de performance.

O CloudWatch Log Insights com ML e o Elastic Observability com ML Jobs fazem isso nativamente. O exemplo mais útil na prática é a detecção de padrões novos: em vez de procurar por uma string específica de erro, o sistema alerta quando um tipo de mensagem de log aparece pela primeira vez ou com frequência anormalmente alta.

# Exemplo: usar o AWS DevOps Guru para análise automática de anomalias
# O DevOps Guru analisa CloudWatch métricas e logs automaticamente
# Configuração via Terraform:

resource "aws_devopsguru_resource_collection" "minha_app" {
  type = "AWS_CLOUD_FORMATION"

  cloud_formation {
    # DevOps Guru monitora todos os recursos desta stack
    stack_names = [
      "minha-app-producao",
      "minha-app-infraestrutura"
    ]
  }
}

# O DevOps Guru gera insights automaticamente quando detecta anomalias.
# Não requer configuração de alertas individuais — ele aprende o baseline
# e notifica quando algo está fora do padrão, com causa raiz inferida.

Categoria 2: Emergindo com Resultados Reais

Assistentes de Código para Infraestrutura

O GitHub Copilot, o Cursor e ferramentas similares têm impacto mensurável na escrita de Terraform, scripts Bash, manifestos Kubernetes e pipelines YAML. O benefício não é que a IA escreve código perfeito — é que ela elimina o tempo gasto consultando documentação para lembrar a sintaxe de um recurso que se usa raramente.

Um engenheiro que sabe o que quer fazer mas precisa consultar a documentação do azurerm_kubernetes_cluster para lembrar o nome exato do campo de Workload Identity economiza 5 minutos com o Copilot. Multiplicado por dezenas de interações por dia, o ganho de produtividade é real e já documentado em estudos do GitHub: desenvolvedores completam tarefas com assistência de IA entre 35% e 55% mais rápido em benchmarks controlados.

O próximo artigo (E10) cobre isso em profundidade com exemplos práticos de geração e revisão de pipelines.

Root Cause Analysis Assistida

Ferramentas como o Datadog Watchdog e o Dynatrace Davis vão além da detecção de anomalias: elas tentam identificar a causa raiz automaticamente, correlacionando eventos de infraestrutura, deploys recentes, mudanças de configuração e métricas de aplicação.

O resultado prático não é "a IA resolve o incidente sozinha" — ainda é o engenheiro que toma as decisões e executa as ações. O que a ferramenta faz é apresentar um diagnóstico estruturado: "Anomalia detectada às 14:23. Correlacionada com deploy realizado às 14:20. Serviço order-service mostrando latência 3x acima do normal. Possível causa: nova versão da query de banco de dados em /src/orders/repository.js linha 47."

Isso reduz o tempo de diagnóstico — o MTTD (Mean Time to Detect) e o MTTR (Mean Time to Recover) — que são as métricas que realmente importam em operações.

Categoria 3: Promissora mas Ainda Imatura

Remediação Automática

A ideia de um sistema que detecta um problema e automaticamente o corrige — reinicia o pod com crash, faz rollback do deploy problemático, aumenta a capacidade — existe em implementações limitadas e confiáveis. O Kubernetes já faz isso em nível básico com liveness probes e restarts automáticos. O HPA escala automaticamente baseado em métricas.

O que ainda é imaturo é a remediação autônoma de problemas mais complexos: "a query está lenta porque o índice está fragmentado — reconstruir o índice automaticamente em produção". Esse tipo de ação requer confiança muito alta na decisão da IA, porque uma ação errada pode piorar o problema. A maioria das organizações com cultura de engenharia madura ainda prefere "IA sugere, humano aprova e executa" para ações de remediação não-triviais.

Previsão de Capacidade

Machine learning aplicado a previsão de capacidade — "quantas instâncias vou precisar semana que vem para a campanha de Black Friday?" — funciona razoavelmente bem em problemas com padrões históricos claros. Mas para eventos sem precedente, crescimento acelerado de usuários ou mudanças de comportamento causadas por features novas, a previsão tem limitações inerentes: não é possível prever o que nunca aconteceu antes.

Como Começar: Um Roteiro Prático

Para times que querem começar a aplicar AIOps sem grandes investimentos em ferramentas especializadas, o roteiro mais pragmático segue três passos.

O primeiro é ativar as funcionalidades de ML que já estão nos serviços em uso. O CloudWatch Anomaly Detection, o Azure Monitor com Dynamic Thresholds, o AWS DevOps Guru e o Datadog Watchdog são ativados com poucos cliques ou linhas de Terraform. Não requerem dados de treinamento customizados nem expertise em ML.

O segundo é integrar um assistente de código ao workflow de desenvolvimento. GitHub Copilot ou Cursor para escrita de Terraform, pipelines e scripts. O ROI é imediato e mensurável em horas economizadas.

O terceiro é instrumentar as métricas de negócio que alimentarão os modelos. Detecção de anomalias em métricas técnicas (CPU, latência) é útil, mas detecção de anomalias em métricas de negócio (taxa de conversão, pedidos por minuto) é o que gera valor direto. Isso requer que as métricas de negócio estejam sendo coletadas com consistência — o que foi construído no capstone desta série.

Referências para Aprofundamento

— AWS DevOps Guru — Documentação: https://docs.aws.amazon.com/devops-guru/latest/userguide/what-is-devops-guru.html — CloudWatch Anomaly Detection: https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html — Azure Monitor — Dynamic Thresholds: https://learn.microsoft.com/pt-br/azure/azure-monitor/alerts/alerts-dynamic-thresholds — Datadog Watchdog: https://docs.datadoghq.com/watchdog/ — GitHub Copilot — Pesquisa de Produtividade: https://github.blog/2022-09-07-research-quantifying-github-copilots-impact-on-developer-productivity/