ray-project · sven1977 · Jan 10, 2022 · Jan 7, 2022 · Jan 10, 2022 · Jan 10, 2022
@@ -80,8 +80,13 @@ def reduce_mean_valid(t):
     logp_ratio = tf.exp(
         curr_action_dist.logp(train_batch[SampleBatch.ACTIONS]) -
         train_batch[SampleBatch.ACTION_LOGP])
-    action_kl = prev_action_dist.kl(curr_action_dist)
-    mean_kl_loss = reduce_mean_valid(action_kl)
+
+    # Only calculate kl loss if necessary (kl-coeff > 0.0).
+    if policy.config["kl_coeff"] > 0.0:
+        action_kl = prev_action_dist.kl(curr_action_dist)
+        mean_kl_loss = reduce_mean_valid(action_kl)
+    else:
+        mean_kl_loss = 0.0
 
     curr_entropy = curr_action_dist.entropy()
     mean_entropy = reduce_mean_valid(curr_entropy)
@@ -110,9 +115,12 @@ def reduce_mean_valid(t):
         vf_loss = mean_vf_loss = tf.constant(0.0)
 
     total_loss = reduce_mean_valid(-surrogate_loss +
-                                   policy.kl_coeff * action_kl +
                                    policy.config["vf_loss_coeff"] * vf_loss -
                                    policy.entropy_coeff * curr_entropy)
+    # Add mean_kl_loss (already processed through `reduce_mean_valid`),
+    # if necessary.
+    if policy.config["kl_coeff"] > 0.0:
+        total_loss += policy.kl_coeff * mean_kl_loss
 
     # Store stats in policy for stats_fn.
     policy._total_loss = total_loss

@@ -106,8 +106,13 @@ def reduce_mean_valid(t):
         logp_ratio = torch.exp(
             curr_action_dist.logp(train_batch[SampleBatch.ACTIONS]) -
             train_batch[SampleBatch.ACTION_LOGP])
-        action_kl = prev_action_dist.kl(curr_action_dist)
-        mean_kl_loss = reduce_mean_valid(action_kl)
+
+        # Only calculate kl loss if necessary (kl-coeff > 0.0).
+        if self.config["kl_coeff"] > 0.0:
+            action_kl = prev_action_dist.kl(curr_action_dist)
+            mean_kl_loss = reduce_mean_valid(action_kl)
+        else:
+            mean_kl_loss = torch.tensor(0.0, device=logp_ratio.device)
 
         curr_entropy = curr_action_dist.entropy()
         mean_entropy = reduce_mean_valid(curr_entropy)
@@ -137,10 +142,14 @@ def reduce_mean_valid(t):
             vf_loss = mean_vf_loss = 0.0
 
         total_loss = reduce_mean_valid(-surrogate_loss +
-                                       self.kl_coeff * action_kl +
                                        self.config["vf_loss_coeff"] * vf_loss -
                                        self.entropy_coeff * curr_entropy)
 
+        # Add mean_kl_loss (already processed through `reduce_mean_valid`),
+        # if necessary.
+        if self.config["kl_coeff"] > 0.0:
+            total_loss += self.kl_coeff * mean_kl_loss
+
         # Store values for stats function in model (tower), such that for
         # multi-GPU, we do not override them during the parallel loss phase.
         model.tower_stats["total_loss"] = total_loss