remove alert HighlyAvailableWorkloadIncorrectlySpread

raptorsun · raptorsun · commit accf1dc9c7c4 · 2021-11-22T17:08:39.000+01:00
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -9,6 +9,7 @@
 - [#1439](https://github.com/openshift/cluster-monitoring-operator/pull/1439) Expose PodDisruptionBudget labels from kube-state-metrics metrics.
 - [#1377](https://github.com/openshift/cluster-monitoring-operator/pull/1377) Allow OpenShift users to configure audit logs for prometheus-adapter
 - [#1481](https://github.com/openshift/cluster-monitoring-operator/pull/1481) Removing one of the AlertmanagerClusterFailedToSendAlerts alerts
+- [#1488](https://github.com/openshift/cluster-monitoring-operator/pull/1488) Removing the alert HighlyAvailableWorkloadIncorrectlySpread.
 
 ## 4.9
 
diff --git a/assets/cluster-monitoring-operator/prometheus-rule.yaml b/assets/cluster-monitoring-operator/prometheus-rule.yaml
@@ -28,39 +28,6 @@ spec:
       for: 15m
       labels:
         severity: warning
-    - alert: HighlyAvailableWorkloadIncorrectlySpread
-      annotations:
-        description: Workload {{ $labels.namespace }}/{{ $labels.workload }} is incorrectly
-          spread across multiple nodes which breaks high-availability requirements.
-          Since the workload is using persistent volumes, manual intervention is needed.
-          Please follow the guidelines provided in the runbook of this alert to fix
-          this issue.
-        runbook_url: https://github.com/openshift/runbooks/blob/master/alerts/HighlyAvailableWorkloadIncorrectlySpread.md
-        summary: Highly-available workload is incorrectly spread across multiple nodes
-          and manual intervention is needed.
-      expr: |
-        count without (node)
-        (
-          group by (node, workload, namespace)
-          (
-            kube_pod_info{node!=""}
-            * on(namespace,pod) group_left(workload)
-            (
-              max by(namespace, pod, workload) (kube_pod_spec_volumes_persistentvolumeclaims_info)
-              * on(namespace,pod) group_left(workload)
-              (
-                namespace_workload_pod:kube_pod_owner:relabel
-                * on(namespace,workload,workload_type) group_left()
-                (
-                  count without(pod) (namespace_workload_pod:kube_pod_owner:relabel{namespace=~"(openshift-.*|kube-.*|default)"}) > 1
-                )
-              )
-            )
-          )
-        ) == 1
-      for: 1h
-      labels:
-        severity: warning
   - name: openshift-kubernetes.rules
     rules:
     - expr: sum(rate(container_cpu_usage_seconds_total{container="",pod!=""}[5m]))
diff --git a/jsonnet/rules.libsonnet b/jsonnet/rules.libsonnet
@@ -22,39 +22,6 @@ function(params) {
             severity: 'warning',
           },
         },
-        {
-          expr: |||
-            count without (node)
-            (
-              group by (node, workload, namespace)
-              (
-                kube_pod_info{node!=""}
-                * on(namespace,pod) group_left(workload)
-                (
-                  max by(namespace, pod, workload) (kube_pod_spec_volumes_persistentvolumeclaims_info)
-                  * on(namespace,pod) group_left(workload)
-                  (
-                    namespace_workload_pod:kube_pod_owner:relabel
-                    * on(namespace,workload,workload_type) group_left()
-                    (
-                      count without(pod) (namespace_workload_pod:kube_pod_owner:relabel{%(namespaceSelector)s}) > 1
-                    )
-                  )
-                )
-              )
-            ) == 1
-          ||| % cfg,
-          alert: 'HighlyAvailableWorkloadIncorrectlySpread',
-          'for': '1h',
-          annotations: {
-            description: 'Workload {{ $labels.namespace }}/{{ $labels.workload }} is incorrectly spread across multiple nodes which breaks high-availability requirements. Since the workload is using persistent volumes, manual intervention is needed. Please follow the guidelines provided in the runbook of this alert to fix this issue.',
-            summary: 'Highly-available workload is incorrectly spread across multiple nodes and manual intervention is needed.',
-            runbook_url: 'https://github.com/openshift/runbooks/blob/master/alerts/HighlyAvailableWorkloadIncorrectlySpread.md',
-          },
-          labels: {
-            severity: 'warning',
-          },
-        },
       ],
     },
     {
diff --git a/jsonnet/utils/sanitize-rules.libsonnet b/jsonnet/utils/sanitize-rules.libsonnet
@@ -336,7 +336,6 @@ local includeRunbooks = {
   AlertmanagerFailedReload: openShiftRunbookCMO('AlertmanagerFailedReload.md'),
   ClusterOperatorDegraded: openShiftRunbookCMO('ClusterOperatorDegraded.md'),
   ClusterOperatorDown: openShiftRunbookCMO('ClusterOperatorDown.md'),
-  HighlyAvailableWorkloadIncorrectlySpread: openShiftRunbook('alerts/HighlyAvailableWorkloadIncorrectlySpread.md'),
   KubeAPIDown: openShiftRunbookCMO('KubeAPIDown.md'),
   KubeDeploymentReplicasMismatch: openShiftRunbookCMO('KubeDeploymentReplicasMismatch.md'),
   KubeJobFailed: openShiftRunbookCMO('KubeJobFailed.md'),
diff --git a/test/rules/bz2006561.yaml b/test/rules/bz2006561.yaml
diff --git a/test/rules/workload_incorrectly_spread.yaml b/test/rules/workload_incorrectly_spread.yaml