add plamo-13b implementation

ggerganov · Oct 9, 2023 · 893c091 · 893c091
1 parent abb29f1
commit 893c091
Show file tree

Hide file tree

Showing 2 changed files with 531 additions and 25 deletions.
diff --git a/gguf-py/gguf/gguf.py b/gguf-py/gguf/gguf.py
@@ -88,6 +88,7 @@ class MODEL_ARCH(IntEnum):
     PERSIMMON     : int = auto()
     REFACT        : int = auto()
     BERT          : int = auto()
+    PLAMO         : int = auto()
 
 
 class MODEL_TENSOR(IntEnum):
@@ -125,6 +126,7 @@ class MODEL_TENSOR(IntEnum):
     MODEL_ARCH.PERSIMMON:      "persimmon",
     MODEL_ARCH.REFACT:         "refact",
     MODEL_ARCH.BERT:           "bert",
+    MODEL_ARCH.PLAMO:          "plamo",
 }
 
 TENSOR_NAMES: dict[MODEL_TENSOR, str] = {
@@ -282,6 +284,21 @@ class MODEL_TENSOR(IntEnum):
         MODEL_TENSOR.FFN_DOWN,
         MODEL_TENSOR.FFN_UP,
     ],
+    MODEL_ARCH.PLAMO: [
+        MODEL_TENSOR.TOKEN_EMBD,
+        MODEL_TENSOR.OUTPUT_NORM,
+        MODEL_TENSOR.OUTPUT,
+        MODEL_TENSOR.ROPE_FREQS,
+        MODEL_TENSOR.ATTN_NORM,
+        MODEL_TENSOR.ATTN_Q,
+        MODEL_TENSOR.ATTN_K,
+        MODEL_TENSOR.ATTN_V,
+        MODEL_TENSOR.ATTN_OUT,
+        MODEL_TENSOR.ATTN_ROT_EMBD,
+        MODEL_TENSOR.FFN_GATE,
+        MODEL_TENSOR.FFN_DOWN,
+        MODEL_TENSOR.FFN_UP,
+    ],
     MODEL_ARCH.GPT2: [
         # TODO
     ],
@@ -366,6 +383,7 @@ class TensorNameMap:
             "layers.{bid}.attention_norm",                         # llama-pth
             "encoder.layer.{bid}.attention.output.LayerNorm",      # bert
             "language_model.encoder.layers.{bid}.input_layernorm", # persimmon
+            "model.layers.layers.{bid}.norm",                      # plamo
         ),
 
         # Attention norm 2
@@ -384,45 +402,50 @@ class TensorNameMap:
 
         # Attention query
         MODEL_TENSOR.ATTN_Q: (
-            "model.layers.{bid}.self_attn.q_proj",       # llama-hf
-            "layers.{bid}.attention.wq",                 # llama-pth
-            "encoder.layer.{bid}.attention.self.query",  # bert
-            "transformer.h.{bid}.attn.q_proj",           # gpt-j
+            "model.layers.{bid}.self_attn.q_proj",        # llama-hf
+            "layers.{bid}.attention.wq",                  # llama-pth
+            "encoder.layer.{bid}.attention.self.query",   # bert
+            "transformer.h.{bid}.attn.q_proj",            # gpt-j
+            "model.layers.layers.{bid}.self_attn.q_proj", # plamo
         ),
 
         # Attention key
         MODEL_TENSOR.ATTN_K: (
-            "model.layers.{bid}.self_attn.k_proj",     # llama-hf
-            "layers.{bid}.attention.wk",               # llama-pth
-            "encoder.layer.{bid}.attention.self.key",  # bert
-            "transformer.h.{bid}.attn.k_proj",         # gpt-j
+            "model.layers.{bid}.self_attn.k_proj",        # llama-hf
+            "layers.{bid}.attention.wk",                  # llama-pth
+            "encoder.layer.{bid}.attention.self.key",     # bert
+            "transformer.h.{bid}.attn.k_proj",            # gpt-j
+            "model.layers.layers.{bid}.self_attn.k_proj", # plamo
         ),
 
         # Attention value
         MODEL_TENSOR.ATTN_V: (
-            "model.layers.{bid}.self_attn.v_proj",       # llama-hf
-            "layers.{bid}.attention.wv",                 # llama-pth
-            "encoder.layer.{bid}.attention.self.value",  # bert
-            "transformer.h.{bid}.attn.v_proj",           # gpt-j
+            "model.layers.{bid}.self_attn.v_proj",        # llama-hf
+            "layers.{bid}.attention.wv",                  # llama-pth
+            "encoder.layer.{bid}.attention.self.value",   # bert
+            "transformer.h.{bid}.attn.v_proj",            # gpt-j
+            "model.layers.layers.{bid}.self_attn.v_proj", # plamo
         ),
 
         # Attention output
         MODEL_TENSOR.ATTN_OUT: (
-            "gpt_neox.layers.{bid}.attention.dense",                   # gptneox
-            "transformer.h.{bid}.attn.c_proj",                         # gpt2 refact
-            "transformer.blocks.{bid}.attn.out_proj",                  # mpt
-            "transformer.h.{bid}.self_attention.dense",                # falcon
-            "model.layers.{bid}.self_attn.o_proj",                     # llama-hf
-            "layers.{bid}.attention.wo",                               # llama-pth
-            "encoder.layer.{bid}.attention.output.dense",              # bert
-            "transformer.h.{bid}.attn.out_proj",                       # gpt-j
-            "language_model.encoder.layers.{bid}.self_attention.dense" # persimmon
+            "gpt_neox.layers.{bid}.attention.dense",                    # gptneox
+            "transformer.h.{bid}.attn.c_proj",                          # gpt2 refact
+            "transformer.blocks.{bid}.attn.out_proj",                   # mpt
+            "transformer.h.{bid}.self_attention.dense",                 # falcon
+            "model.layers.{bid}.self_attn.o_proj",                      # llama-hf
+            "layers.{bid}.attention.wo",                                # llama-pth
+            "encoder.layer.{bid}.attention.output.dense",               # bert
+            "transformer.h.{bid}.attn.out_proj",                        # gpt-j
+            "language_model.encoder.layers.{bid}.self_attention.dense", # persimmon
+            "model.layers.layers.{bid}.self_attn.o_proj",               # plamo
         ),
 
         # Rotary embeddings
         MODEL_TENSOR.ATTN_ROT_EMBD: (
-            "model.layers.{bid}.self_attn.rotary_emb.inv_freq",  # llama-hf
-            "layers.{bid}.attention.inner_attention.rope.freqs", # llama-pth
+            "model.layers.{bid}.self_attn.rotary_emb.inv_freq",         # llama-hf
+            "layers.{bid}.attention.inner_attention.rope.freqs",        # llama-pth
+            "model.layers.layers.{bid}.self_attn.rotary_emb.inv_freq",  # plamo
         ),
 
         # Feed-forward norm
@@ -447,12 +470,14 @@ class TensorNameMap:
             "encoder.layer.{bid}.intermediate.dense",                # bert
             "transformer.h.{bid}.mlp.fc_in",                         # gpt-j
             "language_model.encoder.layers.{bid}.mlp.dense_h_to_4h", # persimmon
+            "model.layers.layers.{bid}.mlp.up_proj",                 # plamo
         ),
 
         # Feed-forward gate
         MODEL_TENSOR.FFN_GATE: (
-            "model.layers.{bid}.mlp.gate_proj", # llama-hf refact
-            "layers.{bid}.feed_forward.w1",     # llama-pth
+            "model.layers.{bid}.mlp.gate_proj",        # llama-hf refact
+            "layers.{bid}.feed_forward.w1",            # llama-pth
+            "model.layers.layers.{bid}.mlp.gate_proj", # plamo
         ),
 
         # Feed-forward down
@@ -466,6 +491,7 @@ class TensorNameMap:
             "encoder.layer.{bid}.output.dense",                      # bert
             "transformer.h.{bid}.mlp.fc_out",                        # gpt-j
             "language_model.encoder.layers.{bid}.mlp.dense_4h_to_h", # persimmon
+            "model.layers.layers.{bid}.mlp.down_proj",               # plamo
         ),
 
         MODEL_TENSOR.ATTN_Q_NORM: (