gitpod-io · roboquat · Oct 27, 2022 · Oct 26, 2022 · Oct 26, 2022
diff --git a/...les/observability-stack/alertmanager.yaml → ...les/observability-stack/alertmanager.yaml b/...les/observability-stack/alertmanager.yaml → ...les/observability-stack/alertmanager.yaml
@@ -27,7 +27,7 @@ spec:
       for: 10m
       labels:
         severity: critical
-        team: platform
+        team: delivery-operations-experience
     - alert: AlertmanagerFailedToSendAlerts
       annotations:
         description: Alertmanager {{ $labels.namespace }}/{{ $labels.pod}} failed to send {{ $value | humanizePercentage }} of notifications to {{ $labels.integration }}.
@@ -42,4 +42,4 @@ spec:
       for: 5m
       labels:
         severity: warning
-        team: platform
+        team: delivery-operations-experience
diff --git a/...servability-stack/kube-state-metrics.yaml → ...servability-stack/kube-state-metrics.yaml b/...servability-stack/kube-state-metrics.yaml → ...servability-stack/kube-state-metrics.yaml
@@ -28,4 +28,4 @@ spec:
       for: 15m
       labels:
         severity: critical
-        team: platform
+        team: delivery-operations-experience
diff --git a/...ervability-stack/prometheus-operator.yaml → ...ervability-stack/prometheus-operator.yaml b/...ervability-stack/prometheus-operator.yaml → ...ervability-stack/prometheus-operator.yaml
@@ -25,7 +25,7 @@ spec:
       for: 15m
       labels:
         severity: warning
-        team: platform
+        team: delivery-operations-experience
     - alert: PrometheusOperatorWatchErrors
       annotations:
         description: Errors while performing watch operations in controller {{$labels.controller}} in {{$labels.namespace}} namespace.
@@ -35,7 +35,7 @@ spec:
       for: 15m
       labels:
         severity: warning
-        team: platform
+        team: delivery-operations-experience
     - alert: PrometheusOperatorReconcileErrors
       annotations:
         description: '{{ $value | humanizePercentage }} of reconciling operations failed for {{ $labels.controller }} controller in {{ $labels.namespace }} namespace.'
@@ -45,7 +45,7 @@ spec:
       for: 10m
       labels:
         severity: warning
-        team: platform
+        team: delivery-operations-experience
     - alert: ConfigReloaderSidecarErrors
       annotations:
         description: |-
@@ -57,4 +57,4 @@ spec:
       for: 10m
       labels:
         severity: warning
-        team: platform
+        team: delivery-operations-experience
diff --git a/...rules/observability-stack/prometheus.yaml → ...rules/observability-stack/prometheus.yaml b/...rules/observability-stack/prometheus.yaml → ...rules/observability-stack/prometheus.yaml
@@ -27,7 +27,7 @@ spec:
       for: 10m
       labels:
         severity: critical
-        team: platform
+        team: delivery-operations-experience
     - alert: PrometheusRemoteStorageFailures
       annotations:
         description: Prometheus {{$labels.namespace}}/{{$labels.pod}} failed to send {{ printf "%.1f" $value }}% of the samples to {{ $labels.remote_name}}:{{ $labels.url }}
@@ -47,7 +47,7 @@ spec:
       for: 15m
       labels:
         severity: critical
-        team: platform
+        team: delivery-operations-experience
     - alert: PrometheusRuleFailures
       annotations:
         description: Prometheus {{$labels.namespace}}/{{$labels.pod}} has failed to evaluate {{ printf "%.0f" $value }} rules in the last 5m.
@@ -57,4 +57,14 @@ spec:
       for: 15m
       labels:
         severity: warning
-        team: platform
+        team: delivery-operations-experience
+    - alert: PrometheusCrashlooped
+      annotations:
+        description: Prometheus' container restarted in the last 5m. While this alert will resolve itself if prometheus stopped crashing, it is important to understand why it crashed in the first place.
+        summary: Prometheus has just crashlooped.
+      expr: |
+        increase(kube_pod_container_status_restarts_total{cluster=~"$cluster", pod="prometheus-k8s-0", container="prometheus"}[5m]) > 0
+      for: 15m
+      labels:
+        severity: info
+        team: delivery-operations-experience