linkedin · JasonZhu1313 · Aug 17, 2024
diff --git a/examples/huggingface/training.py b/examples/huggingface/training.py
@@ -13,9 +13,7 @@
 
 @dataclass
 class CustomArguments:
-    model_name: str = (
-        "meta-llama/Meta-Llama-3-8B"
-    )
+    model_name: str = "meta-llama/Meta-Llama-3-8B"
     dataset: str = "tatsu-lab/alpaca"
     max_seq_length: int = 512
     use_liger: bool = False

diff --git a/examples/lightning/training.py b/examples/lightning/training.py
@@ -7,13 +7,14 @@
 import lightning.pytorch as pl
 import torch
 import transformers
-from liger_kernel.transformers import apply_liger_kernel_to_llama
 from lightning.pytorch.strategies import DeepSpeedStrategy, FSDPStrategy
 from torch.distributed.fsdp import BackwardPrefetch, MixedPrecision
 from torch.utils.data import DataLoader
 from transformers.models.llama.modeling_llama import LlamaDecoderLayer
 from trl import DataCollatorForCompletionOnlyLM
 
+from liger_kernel.transformers import apply_liger_kernel_to_llama
+
 apply_liger_kernel_to_llama(fused_linear_cross_entropy=True, cross_entropy=False)
 
 

diff --git a/src/liger_kernel/transformers/__init__.py b/src/liger_kernel/transformers/__init__.py
@@ -1,4 +1,5 @@
 from liger_kernel.transformers.monkey_patch import (  # noqa: F401
+    MODEL_TO_LIGER_KERNEL_PATCHING_FUNC,
     apply_liger_kernel_to_gemma,
     apply_liger_kernel_to_llama,
     apply_liger_kernel_to_mistral,

diff --git a/src/liger_kernel/transformers/monkey_patch.py b/src/liger_kernel/transformers/monkey_patch.py
@@ -1,3 +1,5 @@
+from collections import OrderedDict
+
 from liger_kernel.transformers.cross_entropy import LigerCrossEntropyLoss
 from liger_kernel.transformers.geglu import LigerGEGLUMLP
 from liger_kernel.transformers.model.llama import lce_forward
@@ -128,3 +130,13 @@ def apply_liger_kernel_to_gemma(
         modeling_gemma.CrossEntropyLoss = LigerCrossEntropyLoss
     if geglu:
         modeling_gemma.GemmaMLP = LigerGEGLUMLP
+
+
+MODEL_TO_LIGER_KERNEL_PATCHING_FUNC = OrderedDict(
+    [
+        ("LlamaForCausalLM", apply_liger_kernel_to_llama),
+        ("MistralForCausalLM", apply_liger_kernel_to_mistral),
+        ("MixtralForCausalLM", apply_liger_kernel_to_mixtral),
+        ("GemmaForCausalLM", apply_liger_kernel_to_gemma),
+    ]
+)