hiyouga · hiyouga · Nov 20, 2024 · Nov 19, 2024 · Nov 19, 2024 · Nov 19, 2024
diff --git a/src/llamafactory/train/dpo/workflow.py b/src/llamafactory/train/dpo/workflow.py
@@ -17,6 +17,8 @@
 
 from typing import TYPE_CHECKING, List, Optional
 
+import torch.distributed as dist
+
 from ...data import PairwiseDataCollatorWithPadding, get_dataset, get_template_and_fix_tokenizer
 from ...extras.constants import IGNORE_INDEX
 from ...extras.ploting import plot_loss
@@ -64,6 +66,11 @@ def run_dpo(
     # Update arguments
     training_args.remove_unused_columns = False  # important for multimodal and pairwise dataset
 
+    effective_token_num = 0.0
+    for data in dataset_module["train_dataset"]:
+        effective_token_num += len(data["chosen_input_ids"])
+        effective_token_num += len(data["rejected_input_ids"])
+
     # Initialize our Trainer
     trainer = CustomDPOTrainer(
         model=model,
@@ -79,6 +86,14 @@ def run_dpo(
     # Training
     if training_args.do_train:
         train_result = trainer.train(resume_from_checkpoint=training_args.resume_from_checkpoint)
+        train_result.metrics["effective_tokens_per_sec"] = (
+            effective_token_num * train_result.metrics["epoch"] / train_result.metrics["train_runtime"]
+        )
+        if dist.is_initialized():
+            train_result.metrics["effective_tokens_per_sec"] = (
+                train_result.metrics["effective_tokens_per_sec"] / dist.get_world_size()
+            )
+
         trainer.save_model()
         trainer.log_metrics("train", train_result.metrics)
         trainer.save_metrics("train", train_result.metrics)

diff --git a/src/llamafactory/train/sft/workflow.py b/src/llamafactory/train/sft/workflow.py
@@ -17,6 +17,8 @@
 
 from typing import TYPE_CHECKING, List, Optional
 
+import torch.distributed as dist
+
 from ...data import SFTDataCollatorWith4DAttentionMask, get_dataset, get_template_and_fix_tokenizer
 from ...extras.constants import IGNORE_INDEX
 from ...extras.misc import get_logits_processor
@@ -65,6 +67,10 @@ def run_sft(
     training_args.generation_num_beams = data_args.eval_num_beams or training_args.generation_num_beams
     training_args.remove_unused_columns = False  # important for multimodal dataset
 
+    effective_token_num = 0.0
+    for data in dataset_module["train_dataset"]:
+        effective_token_num += len(data["input_ids"])
+
     # Metric utils
     metric_module = {}
     if training_args.predict_with_generate:
@@ -94,6 +100,14 @@ def run_sft(
     # Training
     if training_args.do_train:
         train_result = trainer.train(resume_from_checkpoint=training_args.resume_from_checkpoint)
+        train_result.metrics["effective_tokens_per_sec"] = (
+            effective_token_num * train_result.metrics["epoch"] / train_result.metrics["train_runtime"]
+        )
+        if dist.is_initialized():
+            train_result.metrics["effective_tokens_per_sec"] = (
+                train_result.metrics["effective_tokens_per_sec"] / dist.get_world_size()
+            )
+
         trainer.save_model()
         trainer.log_metrics("train", train_result.metrics)
         trainer.save_metrics("train", train_result.metrics)