openshift
diff --git a/‎assets/prometheus-k8s/rules.yaml
Lines changed: 45 additions & 72 deletions b/‎assets/prometheus-k8s/rules.yaml
Lines changed: 45 additions & 72 deletions
diff --git a/‎pkg/manifests/bindata.go
Lines changed: 4 additions & 4 deletions b/‎pkg/manifests/bindata.go
Lines changed: 4 additions & 4 deletions
@@ -862,11 +862,31 @@ spec:
       record: cluster:capacity_cpu_cores:sum
     - expr: |
         clamp_max(
-          (
-            label_replace( ( ( sum (node_cpu_info) by (instance, package, core) )  > 1 ), "label_node_hyperthread_enabled", "true", "instance", "(.*)" )
-            or on (instance, package)
-            label_replace( ( ( sum (node_cpu_info) by (instance, package, core) ) <= 1 ), "label_node_hyperthread_enabled", "false", "instance", "(.*)" )
-          ), 1
+          label_replace(
+            sum by(instance, package, core) (
+              node_cpu_info{core!="",package!=""}
+              or
+              # Assume core = cpu and package = 0 for platforms that don't expose core/package labels.
+              label_replace(label_join(node_cpu_info{core="",package=""}, "core", "", "cpu"), "package", "0", "package", "")
+            ) > 1,
+            "label_node_hyperthread_enabled",
+            "true",
+            "instance",
+            "(.*)"
+          ) or on (instance, package)
+          label_replace(
+            sum by(instance, package, core) (
+              label_replace(node_cpu_info{core!="",package!=""}
+              or
+              # Assume core = cpu and package = 0 for platforms that don't expose core/package labels.
+              label_join(node_cpu_info{core="",package=""}, "core", "", "cpu"), "package", "0", "package", "")
+            ) <= 1,
+            "label_node_hyperthread_enabled",
+            "false",
+            "instance",
+            "(.*)"
+          ),
+          1
         )
       record: cluster:cpu_core_hyperthreading
     - expr: |
@@ -1175,7 +1195,7 @@ spec:
           {{ printf "%.0f" $value }} receive errors in the last two minutes.'
         summary: Network interface is reporting many receive errors.
       expr: |
-        rate(node_network_receive_errs_total[2m]) / rate(node_network_receive_packets_total[2m]) > 0.01
+        increase(node_network_receive_errs_total[2m]) > 10
       for: 1h
       labels:
         severity: warning
@@ -1185,7 +1205,7 @@ spec:
           {{ printf "%.0f" $value }} transmit errors in the last two minutes.'
         summary: Network interface is reporting many transmit errors.
       expr: |
-        rate(node_network_transmit_errs_total[2m]) / rate(node_network_transmit_packets_total[2m]) > 0.01
+        increase(node_network_transmit_errs_total[2m]) > 10
       for: 1h
       labels:
         severity: warning
@@ -1232,8 +1252,6 @@ spec:
         summary: Clock not synchronising.
       expr: |
         min_over_time(node_timex_sync_status[5m]) == 0
-        and
-        node_timex_maxerror_seconds >= 16
       for: 10m
       labels:
         severity: warning
@@ -2106,9 +2124,7 @@ spec:
     rules:
     - alert: etcdMembersDown
       annotations:
-        description: 'etcd cluster "{{ $labels.job }}": members are down ({{ $value
-          }}).'
-        summary: etcd cluster members are down.
+        message: 'etcd cluster "{{ $labels.job }}": members are down ({{ $value }}).'
       expr: |
         max without (endpoint) (
           sum without (instance) (up{job=~".*etcd.*"} == bool 0)
@@ -2123,41 +2139,36 @@ spec:
         severity: critical
     - alert: etcdInsufficientMembers
       annotations:
-        description: 'etcd cluster "{{ $labels.job }}": insufficient members ({{ $value
+        message: 'etcd cluster "{{ $labels.job }}": insufficient members ({{ $value
           }}).'
-        summary: etcd cluster has insufficient number of members.
       expr: |
         sum(up{job=~".*etcd.*"} == bool 1) without (instance) < ((count(up{job=~".*etcd.*"}) without (instance) + 1) / 2)
       for: 3m
       labels:
         severity: critical
     - alert: etcdNoLeader
       annotations:
-        description: 'etcd cluster "{{ $labels.job }}": member {{ $labels.instance
-          }} has no leader.'
-        summary: etcd cluster has no leader.
+        message: 'etcd cluster "{{ $labels.job }}": member {{ $labels.instance }}
+          has no leader.'
       expr: |
         etcd_server_has_leader{job=~".*etcd.*"} == 0
       for: 1m
       labels:
         severity: critical
     - alert: etcdHighNumberOfLeaderChanges
       annotations:
-        description: 'etcd cluster "{{ $labels.job }}": {{ $value }} leader changes
-          within the last 15 minutes. Frequent elections may be a sign of insufficient
-          resources, high network latency, or disruptions by other components and
-          should be investigated.'
-        summary: etcd cluster has high number of leader changes.
+        message: 'etcd cluster "{{ $labels.job }}": {{ $value }} leader changes within
+          the last 15 minutes. Frequent elections may be a sign of insufficient resources,
+          high network latency, or disruptions by other components and should be investigated.'
       expr: |
         increase((max without (instance) (etcd_server_leader_changes_seen_total{job=~".*etcd.*"}) or 0*absent(etcd_server_leader_changes_seen_total{job=~".*etcd.*"}))[15m:1m]) >= 4
       for: 5m
       labels:
         severity: warning
     - alert: etcdGRPCRequestsSlow
       annotations:
-        description: 'etcd cluster "{{ $labels.job }}": gRPC requests to {{ $labels.grpc_method
+        message: 'etcd cluster "{{ $labels.job }}": gRPC requests to {{ $labels.grpc_method
           }} are taking {{ $value }}s on etcd instance {{ $labels.instance }}.'
-        summary: etcd grpc requests are slow
       expr: |
         histogram_quantile(0.99, sum(rate(grpc_server_handling_seconds_bucket{job=~".*etcd.*", grpc_type="unary"}[5m])) without(grpc_type))
         > 0.15
@@ -2166,10 +2177,8 @@ spec:
         severity: critical
     - alert: etcdMemberCommunicationSlow
       annotations:
-        description: 'etcd cluster "{{ $labels.job }}": member communication with
-          {{ $labels.To }} is taking {{ $value }}s on etcd instance {{ $labels.instance
-          }}.'
-        summary: etcd cluster member communication is slow.
+        message: 'etcd cluster "{{ $labels.job }}": member communication with {{ $labels.To
+          }} is taking {{ $value }}s on etcd instance {{ $labels.instance }}.'
       expr: |
         histogram_quantile(0.99, rate(etcd_network_peer_round_trip_time_seconds_bucket{job=~".*etcd.*"}[5m]))
         > 0.15
@@ -2178,40 +2187,27 @@ spec:
         severity: warning
     - alert: etcdHighNumberOfFailedProposals
       annotations:
-        description: 'etcd cluster "{{ $labels.job }}": {{ $value }} proposal failures
+        message: 'etcd cluster "{{ $labels.job }}": {{ $value }} proposal failures
           within the last 30 minutes on etcd instance {{ $labels.instance }}.'
-        summary: etcd cluster has high number of proposal failures.
       expr: |
         rate(etcd_server_proposals_failed_total{job=~".*etcd.*"}[15m]) > 5
       for: 15m
       labels:
         severity: warning
     - alert: etcdHighFsyncDurations
       annotations:
-        description: 'etcd cluster "{{ $labels.job }}": 99th percentile fsync durations
+        message: 'etcd cluster "{{ $labels.job }}": 99th percentile fync durations
           are {{ $value }}s on etcd instance {{ $labels.instance }}.'
-        summary: etcd cluster 99th percentile fsync durations are too high.
       expr: |
         histogram_quantile(0.99, rate(etcd_disk_wal_fsync_duration_seconds_bucket{job=~".*etcd.*"}[5m]))
         > 0.5
       for: 10m
       labels:
         severity: warning
-    - alert: etcdHighFsyncDurations
-      annotations:
-        message: 'etcd cluster "{{ $labels.job }}": 99th percentile fync durations
-          are {{ $value }}s on etcd instance {{ $labels.instance }}.'
-      expr: |
-        histogram_quantile(0.99, rate(etcd_disk_wal_fsync_duration_seconds_bucket{job=~".*etcd.*"}[5m]))
-        > 1
-      for: 10m
-      labels:
-        severity: critical
     - alert: etcdHighCommitDurations
       annotations:
-        description: 'etcd cluster "{{ $labels.job }}": 99th percentile commit durations
+        message: 'etcd cluster "{{ $labels.job }}": 99th percentile commit durations
           {{ $value }}s on etcd instance {{ $labels.instance }}.'
-        summary: etcd cluster 99th percentile commit durations are too high.
       expr: |
         histogram_quantile(0.99, rate(etcd_disk_backend_commit_duration_seconds_bucket{job=~".*etcd.*"}[5m]))
         > 0.25
@@ -2220,9 +2216,8 @@ spec:
         severity: warning
     - alert: etcdHighNumberOfFailedHTTPRequests
       annotations:
-        description: '{{ $value }}% of requests for {{ $labels.method }} failed on
-          etcd instance {{ $labels.instance }}'
-        summary: etcd has high number of failed HTTP requests.
+        message: '{{ $value }}% of requests for {{ $labels.method }} failed on etcd
+          instance {{ $labels.instance }}'
       expr: |
         sum(rate(etcd_http_failed_total{job=~".*etcd.*", code!="404"}[5m])) without (code) / sum(rate(etcd_http_received_total{job=~".*etcd.*"}[5m]))
         without (code) > 0.01
@@ -2231,9 +2226,8 @@ spec:
         severity: warning
     - alert: etcdHighNumberOfFailedHTTPRequests
       annotations:
-        description: '{{ $value }}% of requests for {{ $labels.method }} failed on
-          etcd instance {{ $labels.instance }}.'
-        summary: etcd has high number of failed HTTP requests.
+        message: '{{ $value }}% of requests for {{ $labels.method }} failed on etcd
+          instance {{ $labels.instance }}.'
       expr: |
         sum(rate(etcd_http_failed_total{job=~".*etcd.*", code!="404"}[5m])) without (code) / sum(rate(etcd_http_received_total{job=~".*etcd.*"}[5m]))
         without (code) > 0.05
@@ -2242,32 +2236,11 @@ spec:
         severity: critical
     - alert: etcdHTTPRequestsSlow
       annotations:
-        description: etcd instance {{ $labels.instance }} HTTP requests to {{ $labels.method
+        message: etcd instance {{ $labels.instance }} HTTP requests to {{ $labels.method
           }} are slow.
-        summary: etcd instance HTTP requests are slow.
       expr: |
         histogram_quantile(0.99, rate(etcd_http_successful_duration_seconds_bucket[5m]))
         > 0.15
       for: 10m
       labels:
         severity: warning
-    - alert: etcdBackendQuotaLowSpace
-      annotations:
-        message: 'etcd cluster "{{ $labels.job }}": database size exceeds the defined
-          quota on etcd instance {{ $labels.instance }}, please defrag or increase
-          the quota as the writes to etcd will be disabled when it is full.'
-      expr: |
-        (etcd_mvcc_db_total_size_in_bytes/etcd_server_quota_backend_bytes)*100 > 95
-      for: 10m
-      labels:
-        severity: critical
-    - alert: etcdExcessiveDatabaseGrowth
-      annotations:
-        message: 'etcd cluster "{{ $labels.job }}": Observed surge in etcd writes
-          leading to 50% increase in database size over the past four hours on etcd
-          instance {{ $labels.instance }}, please check as it might be disruptive.'
-      expr: |
-        increase(((etcd_mvcc_db_total_size_in_bytes/etcd_server_quota_backend_bytes)*100)[240m:1m]) > 50
-      for: 10m
-      labels:
-        severity: warning