Fix bos and eos token ids in the model configuration (#3)

pcuenca · web-flow · commit ac7ac8799c11 · 2024-02-13T01:28:26.000+01:00
diff --git a/src/transformers/models/gemma/configuration_gemma.py b/src/transformers/models/gemma/configuration_gemma.py
@@ -74,9 +74,9 @@ class GemmaConfig(PretrainedConfig):
             relevant if `config.is_decoder=True`.
         pad_token_id (`int`, *optional*):
             Padding token id.
-        bos_token_id (`int`, *optional*, defaults to 1):
+        bos_token_id (`int`, *optional*, defaults to 2):
             Beginning of stream token id.
-        eos_token_id (`int`, *optional*, defaults to 2):
+        eos_token_id (`int`, *optional*, defaults to 1):
             End of stream token id.
         pretraining_tp (`int`, *optional*, defaults to 1):
             Experimental feature. Tensor parallelism rank used during pretraining. Please refer to [this
@@ -131,8 +131,8 @@ def __init__(
         rms_norm_eps=1e-6,
         use_cache=True,
         pad_token_id=None,
-        bos_token_id=1,
-        eos_token_id=2,
+        bos_token_id=2,
+        eos_token_id=1,
         tie_word_embeddings=True,
         rope_theta=10000.0,
         rope_scaling=None,