PaddlePaddle · wawltor · Nov 8, 2024 · Nov 7, 2024 · Nov 7, 2024
diff --git a/paddlenlp/transformers/tensor_parallel_utils.py b/paddlenlp/transformers/tensor_parallel_utils.py
@@ -254,12 +254,20 @@
             labels_chunk = labels[token_start_idx:token_end_idx]
 
             # logits calculations
-            logits_chunk_cast = paddle.matmul(hidden_states_chunk, lm_head_weight_cast, transpose_y=transpose_y)
+            logits_chunk_cast = paddle.matmul(
+                hidden_states_chunk,
+                lm_head_weight_cast,
+                transpose_y=transpose_y,
+            )
             if lm_head_bias is not None:
                 logits_chunk_cast += lm_head_bias_cast
             if tensor_parallel_degree > 1 and not tensor_parallel_output:
                 logits_chunk_cast_lst = []
-                dist.all_gather(logits_chunk_cast_lst, logits_chunk_cast, group=model_parallel_group)
+                dist.all_gather(
+                    logits_chunk_cast_lst,
+                    logits_chunk_cast,
+                    group=model_parallel_group,
+                )
                 logits_chunk_cast = paddle.concat(logits_chunk_cast_lst, axis=-1)
             logits_chunk = logits_chunk_cast.astype("float32")
 
@@ -271,18 +279,30 @@
             exp_logits = paddle.exp(normalized_logits)
             sum_exp_logits = paddle.sum(exp_logits, axis=-1, keepdim=True)
             if tensor_parallel_degree > 1 and tensor_parallel_output:
-                dist.all_reduce(sum_exp_logits, op=dist.ReduceOp.SUM, group=model_parallel_group)
+                dist.all_reduce(
+                    sum_exp_logits,
+                    op=dist.ReduceOp.SUM,
+                    group=model_parallel_group,
+                )
             log_sum_exp_logits = paddle.log(sum_exp_logits)
 
             # cross entropy
             labels_one_hot = labels_chunk.unsqueeze(1) == indices
             label_logits = paddle.sum(
-                paddle.where(labels_one_hot, normalized_logits, paddle.zeros_like(normalized_logits)),
+                paddle.where(
+                    labels_one_hot,
+                    normalized_logits,
+                    paddle.zeros_like(normalized_logits),
+                ),
                 axis=-1,
                 keepdim=True,
             )
             if tensor_parallel_degree > 1 and tensor_parallel_output:
-                dist.all_reduce(label_logits, op=dist.ReduceOp.SUM, group=model_parallel_group)
+                dist.all_reduce(
+                    label_logits,
+                    op=dist.ReduceOp.SUM,
+                    group=model_parallel_group,
+                )
             token_loss_chunk = (log_sum_exp_logits - label_logits).squeeze(1) / divisor
             cond = loss_mask[token_start_idx:token_end_idx].astype("bool")
             token_loss_chunk = paddle.where(cond, token_loss_chunk, paddle.zeros_like(token_loss_chunk))
@@ -298,18 +318,30 @@
                 grad_logits_chunk = (exp_logits / sum_exp_logits - labels_one_hot.astype("float32")) / divisor
                 grad_logits_chunk = grad_logits_chunk.astype(dtype)
                 grad_logits_chunk = paddle.where(
-                    cond.unsqueeze(1), grad_logits_chunk, paddle.zeros_like(grad_logits_chunk)
+                    cond.unsqueeze(1),
+                    grad_logits_chunk,
+                    paddle.zeros_like(grad_logits_chunk),
                 )
 
                 if grad_hidden_states is not None:
                     grad_hidden_states[token_start_idx:token_end_idx] = paddle.matmul(
-                        grad_logits_chunk, lm_head_weight_cast, transpose_y=not transpose_y
+                        grad_logits_chunk,
+                        lm_head_weight_cast,
+                        transpose_y=not transpose_y,
                     )
                 if grad_lm_head_weight is not None:
                     if transpose_y:
-                        grad_lm_head_weight += paddle.matmul(grad_logits_chunk, hidden_states_chunk, transpose_x=True)
+                        grad_lm_head_weight += paddle.matmul(
+                            grad_logits_chunk,
+                            hidden_states_chunk,
+                            transpose_x=True,
+                        )
                     else:
-                        grad_lm_head_weight += paddle.matmul(hidden_states_chunk, grad_logits_chunk, transpose_x=True)
+                        grad_lm_head_weight += paddle.matmul(
+                            hidden_states_chunk,
+                            grad_logits_chunk,
+                            transpose_x=True,
+                        )
                 if grad_lm_head_bias is not None:
                     grad_lm_head_bias += grad_logits_chunk.astype("float32").sum(axis=0).astype(dtype)
 
@@ -340,7 +372,11 @@
             grad_args = []
             if ctx.hidden_states_has_grad:
                 if tensor_parallel_degree > 1:
-                    dist.all_reduce(grad_hidden_states, op=dist.ReduceOp.SUM, group=model_parallel_group)
+                    dist.all_reduce(
+                        grad_hidden_states,
+                        op=dist.ReduceOp.SUM,
+                        group=model_parallel_group,
+                    )
                 grad_args.append(grad_hidden_states.reshape(original_shape))
             if ctx.lm_head_weight_has_grad:
                 grad_args.append(grad_lm_head_weight)
@@ -376,9 +412,20 @@
                 grad_lm_head_bias = None
 
             if ctx.aux_num == 1:
-                return grad_hidden_states, grad_lm_head_weight, grad_lm_head_bias, None
+                return (
+                    grad_hidden_states,
+                    grad_lm_head_weight,
+                    grad_lm_head_bias,
+                    None,
+                )
             else:
-                return grad_hidden_states, grad_lm_head_weight, grad_lm_head_bias, None, None
+                return (
+                    grad_hidden_states,
+                    grad_lm_head_weight,
+                    grad_lm_head_bias,
+                    None,
+                    None,
+                )
 
         # return_token_loss = True
         grad_token_loss = grad_output.reshape([-1])
@@ -444,12 +491,20 @@
             labels_chunk = labels[token_start_idx:token_end_idx]
 
             # logits calculations
-            logits_chunk_cast = paddle.matmul(hidden_states_chunk, lm_head_weight_cast, transpose_y=transpose_y)
+            logits_chunk_cast = paddle.matmul(
+                hidden_states_chunk,
+                lm_head_weight_cast,
+                transpose_y=transpose_y,
+            )
             if lm_head_bias is not None:
                 logits_chunk_cast += lm_head_bias_cast
             if tensor_parallel_degree > 1 and not tensor_parallel_output:
                 logits_chunk_cast_lst = []
-                dist.all_gather(logits_chunk_cast_lst, logits_chunk_cast, group=model_parallel_group)
+                dist.all_gather(
+                    logits_chunk_cast_lst,
+                    logits_chunk_cast,
+                    group=model_parallel_group,
+                )
                 logits_chunk_cast = paddle.concat(logits_chunk_cast_lst, axis=-1)
             logits_chunk = logits_chunk_cast.astype("float32")
 
@@ -461,7 +516,11 @@
             exp_logits = paddle.exp(normalized_logits)
             sum_exp_logits = paddle.sum(exp_logits, axis=-1, keepdim=True)
             if tensor_parallel_degree > 1 and tensor_parallel_output:
-                dist.all_reduce(sum_exp_logits, op=dist.ReduceOp.SUM, group=model_parallel_group)
+                dist.all_reduce(
+                    sum_exp_logits,
+                    op=dist.ReduceOp.SUM,
+                    group=model_parallel_group,
+                )
 
             labels_one_hot = labels_chunk.unsqueeze(1) == indices
             if tensor_parallel_degree > 1 and not tensor_parallel_output:
@@ -473,12 +532,16 @@
             grad_logits_chunk = grad_logits_chunk.astype(dtype)
             cond = loss_mask[token_start_idx:token_end_idx].astype("bool")
             grad_logits_chunk = paddle.where(
-                cond.unsqueeze(1), grad_logits_chunk, paddle.zeros_like(grad_logits_chunk)
+                cond.unsqueeze(1),
+                grad_logits_chunk,
+                paddle.zeros_like(grad_logits_chunk),
             )
 
             if grad_hidden_states is not None:
                 grad_hidden_states[token_start_idx:token_end_idx] = paddle.matmul(
-                    grad_logits_chunk, lm_head_weight_cast, transpose_y=not transpose_y
+                    grad_logits_chunk,
+                    lm_head_weight_cast,
+                    transpose_y=not transpose_y,
                 )
             if grad_lm_head_weight is not None:
                 if transpose_y:
@@ -490,10 +553,25 @@
 
         if grad_hidden_states is not None:
             if tensor_parallel_degree > 1:
-                dist.all_reduce(grad_hidden_states, op=dist.ReduceOp.SUM, group=model_parallel_group)
+                dist.all_reduce(
+                    grad_hidden_states,
+                    op=dist.ReduceOp.SUM,
+                    group=model_parallel_group,
+                )
             grad_hidden_states = grad_hidden_states.reshape(ctx.original_shape)
 
         if ctx.aux_num == 1:
-            return grad_hidden_states, grad_lm_head_weight, grad_lm_head_bias, None
+            return (
+                grad_hidden_states,
+                grad_lm_head_weight,
+                grad_lm_head_bias,
+                None,
+            )
         else:
-            return grad_hidden_states, grad_lm_head_weight, grad_lm_head_bias, None, None
+            return (
+                grad_hidden_states,
+                grad_lm_head_weight,
+                grad_lm_head_bias,
+                None,
+                None,
+            )
diff --git a/paddlenlp/trl/__init__.py b/paddlenlp/trl/__init__.py
@@ -14,6 +14,8 @@
 
 from .dpo_criterion import DPOCriterion
 from .dpo_trainer import DPOTrainer
+from .kto_criterion import KTOCriterion
+from .kto_trainer import KTOTrainer
 from .sft_trainer import *
 from .trl_data import *
 from .trl_utils import *
diff --git a/paddlenlp/trl/dpo_criterion.py b/paddlenlp/trl/dpo_criterion.py
@@ -287,10 +287,10 @@
         )
         loss = dpo_loss + sft_loss
         if self.use_infohub:
-            infohub.policy_chosen_logps.append(policy_chosen_logps)
-            infohub.policy_rejected_logps.append(policy_rejected_logps)
-            infohub.sft_loss.append(sft_loss)
-            infohub.dpo_loss.append(dpo_loss)
+            infohub.policy_chosen_logps.append(policy_chosen_logps.detach())
+            infohub.policy_rejected_logps.append(policy_rejected_logps.detach())
+            infohub.sft_loss.append(sft_loss.detach())
+            infohub.dpo_loss.append(dpo_loss.detach())
             return loss
         else:
             return policy_chosen_logps, policy_rejected_logps, sft_loss, dpo_loss, loss