Remove scikit-learn by implementing precision_recall_fscore_support (#1557)

mgoin · web-flow · commit baa6560ec0bc · 2024-01-24T11:43:41.000-05:00
diff --git a/setup.py b/setup.py
@@ -148,7 +148,6 @@ def _parse_requirements_file(file_path):
     "transformers<4.37",
     "datasets<2.16",
     "accelerate<0.26",
-    "scikit-learn",
     "seqeval",
 ]
 _sentence_transformers_integration_deps = ["optimum-deepsparse"] + _torch_deps
diff --git a/src/deepsparse/transformers/metrics.py b/src/deepsparse/transformers/metrics.py
@@ -21,7 +21,6 @@
 import numpy
 
 from scipy.special import log_softmax
-from sklearn.metrics import precision_recall_fscore_support
 
 
 __all__ = [
@@ -30,6 +29,60 @@
 ]
 
 
+def precision_recall_fscore_support(true_labels, predicted_labels, beta=1.0):
+    """
+    Calculate precision, recall, and F-beta score for each class.
+
+    Parameters:
+    true_labels (array-like): True labels of the data.
+    predicted_labels (array-like): Predicted labels by the classifier.
+    beta (float): The strength of recall versus precision in the F-score.
+
+    Returns:
+    precision (numpy.ndarray): Precision for each class.
+    recall (numpy.ndarray): Recall for each class.
+    fscore (numpy.ndarray): F-beta score for each class.
+    support (numpy.ndarray): Number of occurrences of each class in true_labels.
+    """
+    true_labels = numpy.array(true_labels)
+    predicted_labels = numpy.array(predicted_labels)
+
+    unique_labels = numpy.unique(numpy.concatenate([true_labels, predicted_labels]))
+    precision = numpy.zeros(len(unique_labels))
+    recall = numpy.zeros(len(unique_labels))
+    fscore = numpy.zeros(len(unique_labels))
+    support = numpy.zeros(len(unique_labels))
+
+    for i, label in enumerate(unique_labels):
+        true_positive = numpy.sum((predicted_labels == label) & (true_labels == label))
+        false_positive = numpy.sum((predicted_labels == label) & (true_labels != label))
+        false_negative = numpy.sum((predicted_labels != label) & (true_labels == label))
+
+        precision[i] = (
+            true_positive / (true_positive + false_positive)
+            if true_positive + false_positive > 0
+            else 0
+        )
+        recall[i] = (
+            true_positive / (true_positive + false_negative)
+            if true_positive + false_negative > 0
+            else 0
+        )
+        fscore[i] = (
+            (
+                (1 + beta**2)
+                * precision[i]
+                * recall[i]
+                / (beta**2 * precision[i] + recall[i])
+            )
+            if precision[i] + recall[i] > 0
+            else 0
+        )
+        support[i] = numpy.sum(true_labels == label)
+
+    return precision, recall, fscore, support
+
+
 class Perplexity:
     def __init__(self, accumulate: bool = False):
         """

Original file line number	Diff line number	Diff line change
`@@ -148,7 +148,6 @@ def _parse_requirements_file(file_path):`
`148`	`148`	`"transformers<4.37",`
`149`	`149`	`"datasets<2.16",`
`150`	`150`	`"accelerate<0.26",`
`151`		`- "scikit-learn",`
`152`	`151`	`"seqeval",`
`153`	`152`	`]`
`154`	`153`	`_sentence_transformers_integration_deps = ["optimum-deepsparse"] + _torch_deps`