BioinfoMachineLearning
diff --git a/‎notebooks/dockgen_structure_prediction_relaxed_bar_chart.png
37.3 KB b/‎notebooks/dockgen_structure_prediction_relaxed_bar_chart.png
37.3 KB
diff --git a/‎notebooks/dockgen_structure_prediction_relaxed_rmsd_violin_plot.png
98.7 KB b/‎notebooks/dockgen_structure_prediction_relaxed_rmsd_violin_plot.png
98.7 KB
diff --git a/‎notebooks/dockgen_structure_prediction_results_plotting.ipynb
Lines changed: 126 additions & 21 deletions b/‎notebooks/dockgen_structure_prediction_results_plotting.ipynb
Lines changed: 126 additions & 21 deletions
diff --git a/‎notebooks/posebusters_benchmark_structure_prediction_relaxed_bar_chart.png
100 KB b/‎notebooks/posebusters_benchmark_structure_prediction_relaxed_bar_chart.png
100 KB
diff --git a/‎notebooks/posebusters_benchmark_structure_prediction_relaxed_rmsd_violin_plot.png
106 KB b/‎notebooks/posebusters_benchmark_structure_prediction_relaxed_rmsd_violin_plot.png
106 KB
@@ -59,13 +59,16 @@
    "source": [
     "# General variables\n",
     "baseline_methods = [\n",
-    "    # \"vina_p2rank\",\n",
+    "    \"vina_p2rank\",\n",
     "    \"diffdock\",\n",
     "    \"dynamicbind\",\n",
-    "    # \"rfaa\",\n",
+    "    \"rfaa\",\n",
+    "    \"alphafold3\",\n",
     "    \"chai-lab\",\n",
     "    \"neuralplexer\",\n",
     "    \"flowdock_hp\",\n",
+    "    \"flowdock_aft\",\n",
+    "    \"flowdock_esmfold\",\n",
     "    \"flowdock\",\n",
     "]\n",
     "max_num_repeats_per_method = 3\n",
@@ -77,9 +80,14 @@
     "    \"..\", \"forks\", \"DynamicBind\", \"inference\", \"outputs\", \"results\"\n",
     ")\n",
     "globals()[\"rfaa_output_dir\"] = os.path.join(\"..\", \"forks\", \"RoseTTAFold-All-Atom\", \"inference\")\n",
+    "globals()[\"alphafold3_output_dir\"] = os.path.join(\"..\", \"forks\", \"alphafold3\", \"inference\")\n",
     "globals()[\"chai-lab_output_dir\"] = os.path.join(\"..\", \"forks\", \"chai-lab\", \"inference\")\n",
     "globals()[\"neuralplexer_output_dir\"] = os.path.join(\"..\", \"forks\", \"NeuralPLexer\", \"inference\")\n",
     "globals()[\"flowdock_hp_output_dir\"] = os.path.join(\"..\", \"forks\", \"FlowDock\", \"hp_inference\")\n",
+    "globals()[\"flowdock_aft_output_dir\"] = os.path.join(\"..\", \"forks\", \"FlowDock\", \"aft_inference\")\n",
+    "globals()[\"flowdock_esmfold_output_dir\"] = os.path.join(\n",
+    "    \"..\", \"forks\", \"FlowDock\", \"esmfold_inference\"\n",
+    ")\n",
     "globals()[\"flowdock_output_dir\"] = os.path.join(\"..\", \"forks\", \"FlowDock\", \"inference\")\n",
     "\n",
     "for repeat_index in range(1, max_num_repeats_per_method + 1):\n",
@@ -133,15 +141,29 @@
     "        \"bust_results.csv\",\n",
     "    )\n",
     "\n",
-    "    # Chai-1 results\n",
+    "    # AlphaFold 3 (Single-Seq) results\n",
+    "    globals()[f\"alphafold3_dockgen_bust_results_csv_filepath_{repeat_index}\"] = os.path.join(\n",
+    "        globals()[\"alphafold3_output_dir\"],\n",
+    "        f\"alphafold3_ss_dockgen_outputs_{repeat_index}\",\n",
+    "        \"bust_results.csv\",\n",
+    "    )\n",
+    "    globals()[f\"alphafold3_dockgen_relaxed_bust_results_csv_filepath_{repeat_index}\"] = (\n",
+    "        os.path.join(\n",
+    "            globals()[\"alphafold3_output_dir\"],\n",
+    "            f\"alphafold3_ss_dockgen_outputs_{repeat_index}_relaxed\",\n",
+    "            \"bust_results.csv\",\n",
+    "        )\n",
+    "    )\n",
+    "\n",
+    "    # Chai-1 (Single-Seq) results\n",
     "    globals()[f\"chai-lab_dockgen_bust_results_csv_filepath_{repeat_index}\"] = os.path.join(\n",
     "        globals()[\"chai-lab_output_dir\"],\n",
-    "        f\"chai-lab_dockgen_outputs_{repeat_index}\",\n",
+    "        f\"chai-lab_ss_dockgen_outputs_{repeat_index}\",\n",
     "        \"bust_results.csv\",\n",
     "    )\n",
     "    globals()[f\"chai-lab_dockgen_relaxed_bust_results_csv_filepath_{repeat_index}\"] = os.path.join(\n",
     "        globals()[\"chai-lab_output_dir\"],\n",
-    "        f\"chai-lab_dockgen_outputs_{repeat_index}_relaxed\",\n",
+    "        f\"chai-lab_ss_dockgen_outputs_{repeat_index}_relaxed\",\n",
     "        \"bust_results.csv\",\n",
     "    )\n",
     "\n",
@@ -173,6 +195,34 @@
     "        )\n",
     "    )\n",
     "\n",
+    "    # FlowDock-AFT results\n",
+    "    globals()[f\"flowdock_aft_dockgen_bust_results_csv_filepath_{repeat_index}\"] = os.path.join(\n",
+    "        globals()[\"flowdock_aft_output_dir\"],\n",
+    "        f\"flowdock_dockgen_outputs_{repeat_index}\",\n",
+    "        \"bust_results.csv\",\n",
+    "    )\n",
+    "    globals()[f\"flowdock_aft_dockgen_relaxed_bust_results_csv_filepath_{repeat_index}\"] = (\n",
+    "        os.path.join(\n",
+    "            globals()[\"flowdock_aft_output_dir\"],\n",
+    "            f\"flowdock_dockgen_outputs_{repeat_index}_relaxed\",\n",
+    "            \"bust_results.csv\",\n",
+    "        )\n",
+    "    )\n",
+    "\n",
+    "    # FlowDock-ESMFold results\n",
+    "    globals()[f\"flowdock_esmfold_dockgen_bust_results_csv_filepath_{repeat_index}\"] = os.path.join(\n",
+    "        globals()[\"flowdock_esmfold_output_dir\"],\n",
+    "        f\"flowdock_dockgen_outputs_{repeat_index}\",\n",
+    "        \"bust_results.csv\",\n",
+    "    )\n",
+    "    globals()[f\"flowdock_esmfold_dockgen_relaxed_bust_results_csv_filepath_{repeat_index}\"] = (\n",
+    "        os.path.join(\n",
+    "            globals()[\"flowdock_esmfold_output_dir\"],\n",
+    "            f\"flowdock_dockgen_outputs_{repeat_index}_relaxed\",\n",
+    "            \"bust_results.csv\",\n",
+    "        )\n",
+    "    )\n",
+    "\n",
     "    # FlowDock results\n",
     "    globals()[f\"flowdock_dockgen_bust_results_csv_filepath_{repeat_index}\"] = os.path.join(\n",
     "        globals()[\"flowdock_output_dir\"],\n",
@@ -191,20 +241,26 @@
     "    \"diffdock\": \"DiffDock-L\",\n",
     "    \"dynamicbind\": \"DynamicBind\",\n",
     "    \"rfaa\": \"RoseTTAFold-AA\",\n",
-    "    \"chai-lab\": \"Chai-1\",\n",
+    "    \"alphafold3\": \"AF3-Single-Seq\",\n",
+    "    \"chai-lab\": \"Chai-1-Single-Seq\",\n",
     "    \"neuralplexer\": \"NeuralPLexer\",\n",
     "    \"flowdock_hp\": \"FlowDock-HP\",\n",
-    "    \"flowdock\": \"FlowDock\",\n",
+    "    \"flowdock_aft\": \"FlowDock-AFT\",\n",
+    "    \"flowdock_esmfold\": \"FlowDock-ESMFold\",\n",
+    "    \"flowdock\": \"FlowDock-AF3\",\n",
     "}\n",
     "\n",
     "method_category_mapping = {\n",
     "    \"vina_p2rank\": \"Conventional blind\",\n",
     "    \"diffdock\": \"DL-based blind\",\n",
     "    \"dynamicbind\": \"DL-based blind\",\n",
     "    \"rfaa\": \"DL-based blind\",\n",
+    "    \"alphafold3\": \"DL-based blind\",\n",
     "    \"chai-lab\": \"DL-based blind\",\n",
     "    \"neuralplexer\": \"DL-based blind\",\n",
     "    \"flowdock_hp\": \"DL-based blind\",\n",
+    "    \"flowdock_aft\": \"DL-based blind\",\n",
+    "    \"flowdock_esmfold\": \"DL-based blind\",\n",
     "    \"flowdock\": \"DL-based blind\",\n",
     "}\n",
     "\n",
@@ -476,7 +532,7 @@
     "colors = [\"#FB8072\", \"#BEBADA\"]\n",
     "\n",
     "bar_width = 0.5\n",
-    "r1 = [item - 0.25 for item in range(2, 14, 2)]\n",
+    "r1 = [item - 0.25 for item in range(2, 24, 2)]\n",
     "r2 = [x + bar_width for x in r1]\n",
     "\n",
     "(\n",
@@ -714,15 +770,61 @@
     "\n",
     "# add labels, titles, ticks, etc.\n",
     "axis.set_ylabel(\"Percentage of predictions\")\n",
-    "axis.set_xlim(1, 13 + 0.1)\n",
+    "axis.set_xlim(1, 23 + 0.1)\n",
     "axis.set_ylim(0, 125)\n",
     "\n",
-    "axis.bar_label(dockgen_rmsd_lt_2_bar, fmt=\"{:,.1f}%\", label_type=\"edge\")\n",
-    "axis.bar_label(dockgen_rmsd_lt_2_and_pb_valid_bar, fmt=\"{:,.1f}%\", label_type=\"center\", padding=5)\n",
-    "axis.bar_label(dockgen_relaxed_rmsd_lt_2_bar, fmt=\"{:,.1f}%\", label_type=\"edge\")\n",
-    "axis.bar_label(\n",
-    "    dockgen_relaxed_rmsd_lt_2_and_pb_valid_bar, fmt=\"{:,.1f}%\", label_type=\"center\", padding=5\n",
+    "assert len(dockgen_rmsd_lt_2_bar) == len(dockgen_rmsd_lt_2_and_pb_valid_bar), (\n",
+    "    f\"Length of dockgen_rmsd_lt_2_bar ({len(dockgen_rmsd_lt_2_bar)}) \"\n",
+    "    f\"and dockgen_rmsd_lt_2_and_pb_valid_bar ({len(dockgen_rmsd_lt_2_and_pb_valid_bar)}) \"\n",
+    "    \"do not match.\"\n",
+    ")\n",
+    "assert len(dockgen_relaxed_rmsd_lt_2_bar) == len(dockgen_relaxed_rmsd_lt_2_and_pb_valid_bar), (\n",
+    "    f\"Length of dockgen_relaxed_rmsd_lt_2_bar ({len(dockgen_relaxed_rmsd_lt_2_bar)}) \"\n",
+    "    f\"and dockgen_relaxed_rmsd_lt_2_and_pb_valid_bar ({len(dockgen_relaxed_rmsd_lt_2_and_pb_valid_bar)}) \"\n",
+    "    \"do not match.\"\n",
     ")\n",
+    "for bar, pb_valid_bar in zip(dockgen_rmsd_lt_2_bar, dockgen_rmsd_lt_2_and_pb_valid_bar):\n",
+    "    height = bar.get_height()\n",
+    "    pb_valid_height = pb_valid_bar.get_height()\n",
+    "    axis.annotate(\n",
+    "        f\"{height:.1f}\",\n",
+    "        (\n",
+    "            bar.get_x() + bar.get_width() / 2.5,\n",
+    "            max(height + 5, pb_valid_height) + 2,\n",
+    "        ),  # Offset to prevent overlap\n",
+    "        ha=\"center\",\n",
+    "        va=\"bottom\",\n",
+    "        fontsize=24,\n",
+    "    )\n",
+    "    axis.annotate(\n",
+    "        f\"{pb_valid_height:.1f}\",\n",
+    "        (pb_valid_bar.get_x() + pb_valid_bar.get_width() / 2.5, max(height, pb_valid_height) + 2),\n",
+    "        ha=\"center\",\n",
+    "        va=\"bottom\",\n",
+    "        fontsize=24,\n",
+    "    )\n",
+    "for bar, pb_valid_bar in zip(\n",
+    "    dockgen_relaxed_rmsd_lt_2_bar, dockgen_relaxed_rmsd_lt_2_and_pb_valid_bar\n",
+    "):\n",
+    "    height = bar.get_height()\n",
+    "    pb_valid_height = pb_valid_bar.get_height()\n",
+    "    axis.annotate(\n",
+    "        f\"{height:.1f}\",\n",
+    "        (\n",
+    "            bar.get_x() + bar.get_width() / 1.75,\n",
+    "            max(height + 5, pb_valid_height) + 2,\n",
+    "        ),  # Offset to prevent overlap\n",
+    "        ha=\"center\",\n",
+    "        va=\"bottom\",\n",
+    "        fontsize=24,\n",
+    "    )\n",
+    "    axis.annotate(\n",
+    "        f\"{pb_valid_height:.1f}\",\n",
+    "        (pb_valid_bar.get_x() + pb_valid_bar.get_width() / 1.75, max(height, pb_valid_height) + 2),\n",
+    "        ha=\"center\",\n",
+    "        va=\"bottom\",\n",
+    "        fontsize=24,\n",
+    "    )\n",
     "\n",
     "axis.yaxis.set_major_formatter(mtick.PercentFormatter())\n",
     "\n",
@@ -731,20 +833,23 @@
     "axis.grid(axis=\"y\", color=\"#EAEFF8\")\n",
     "axis.set_axisbelow(True)\n",
     "\n",
-    "axis.set_xticks([2, 4, 6, 7, 8, 10, 12])\n",
+    "axis.set_xticks([2, 2 + 1e-3, 4, 6, 8, 10, 12, 13, 14, 16, 18, 20, 22])\n",
     "axis.set_xticks([1 + 0.1], minor=True)\n",
     "axis.set_xticklabels(\n",
     "    [\n",
-    "        # \"P2Rank-Vina\",\n",
-    "        # \"Conventional blind\",\n",
+    "        \"P2Rank-Vina\",\n",
+    "        \"Conventional blind\",\n",
     "        \"DiffDock-L\",\n",
     "        \"DynamicBind\",\n",
-    "        # \"RoseTTAFold-AA\",\n",
-    "        \"Chai-1\",\n",
+    "        \"RoseTTAFold-AA\",\n",
+    "        \"AF3-Single-Seq\",\n",
+    "        \"Chai-1-Single-Seq\",\n",
     "        \"DL-based blind\",\n",
     "        \"NeuralPLexer\",\n",
     "        \"FlowDock-HP\",\n",
-    "        \"FlowDock\",\n",
+    "        \"FlowDock-AFT\",\n",
+    "        \"FlowDock-ESMFold\",\n",
+    "        \"FlowDock-AF3\",\n",
     "    ]\n",
     ")\n",
     "\n",
@@ -756,7 +861,7 @@
     "axis.tick_params(axis=\"y\", which=\"major\", left=\"off\", right=\"on\", color=\"#EAEFF8\")\n",
     "\n",
     "# vertical alignment of xtick labels\n",
-    "vert_alignments = [0.0, 0.0, 0.0, -0.1, 0.0, 0.0, 0.0]\n",
+    "vert_alignments = [0.0, -0.1, 0.0, 0.0, 0.0, 0.0, 0.0, -0.1, 0.0, 0.0, 0.0, 0.0, 0.0]\n",
     "for tick, y in zip(axis.get_xticklabels(), vert_alignments):\n",
     "    tick.set_y(y)\n",
     "\n",