Add custom MusicGen training, fix DAC RVQ demo

zqevans · zqevans · commit 371f143e4317 · 2023-09-28T01:28:53.000Z
diff --git a/defaults.ini b/defaults.ini
@@ -17,7 +17,7 @@ num_nodes = 1
 strategy = ""
 
 # Precision to use for training
-precision = 16
+precision = "16"
 
 # number of CPU workers for the DataLoader
 num_workers = 8
diff --git a/harmonai_tools/configs/model_configs/txt2audio/44k_vae_1024_64_stereo_adp_t5_prompts_12s.json b/harmonai_tools/configs/model_configs/txt2audio/44k_vae_1024_64_stereo_adp_t5_prompts_12s.json
@@ -71,7 +71,7 @@
         "io_channels": 64
     },
     "training": {
-        "learning_rate": 2e-5,
+        "learning_rate": 4e-5,
         "demo": {
             "demo_every": 2000,
             "demo_steps": 250,
diff --git a/harmonai_tools/configs/model_configs/txt2audio/44k_vae_1024_64_stereo_adp_t5_prompts_6s_2.json b/harmonai_tools/configs/model_configs/txt2audio/44k_vae_1024_64_stereo_adp_t5_prompts_6s_2.json
@@ -0,0 +1,92 @@
+{
+    "model_type": "diffusion_cond",
+    "sample_size": 262144,
+    "sample_rate": 44100,
+    "audio_channels": 2,
+    "model": {
+        "pretransform": {
+            "type": "autoencoder",
+            "config": {
+                "encoder": {
+                    "type": "dac",
+                    "config": {
+                        "in_channels": 2,
+                        "latent_dim": 128,
+                        "d_model": 128,
+                        "strides": [4, 4, 8, 8]
+                    }
+                },
+                "decoder": {
+                    "type": "dac",
+                    "config": {
+                        "out_channels": 2,
+                        "latent_dim": 64,
+                        "channels": 1536,
+                        "rates": [8, 8, 4, 4]
+                    }
+                },
+                "bottleneck": {
+                    "type": "vae"
+                },
+                "latent_dim": 64,
+                "downsampling_ratio": 1024,
+                "io_channels": 2
+            }
+        },
+        "conditioning": {
+            "configs": [
+                {
+                    "id": "prompt",
+                    "type": "t5",
+                    "config": {
+                        "t5_model_name": "t5-base",
+                        "max_length": 77
+                    }
+                }
+            ],
+            "cond_dim": 768
+        },
+        "diffusion": {
+            "type": "adp_cfg_1d",
+            "cross_attention_cond_ids": ["prompt"],
+            "config": {
+                "in_channels": 64,
+                "context_embedding_features": 768,
+                "context_embedding_max_length":77,
+                "channels": 256,
+                "resnet_groups": 8,
+                "kernel_multiplier_downsample": 2,
+                "multipliers": [2, 3, 4, 5],
+                "factors": [1, 2, 4],
+                "num_blocks": [3, 3, 3],
+                "attentions": [1, 1, 1, 1],
+                "attention_heads": 16,
+                "attention_features": 64,
+                "attention_multiplier": 4,
+                "use_nearest_upsample": false,
+                "use_skip_scale": true,
+                "use_context_time": true
+            }
+        },
+        "io_channels": 64
+    },
+    "training": {
+        "learning_rate": 4e-5,
+        "demo": {
+            "demo_every": 2000,
+            "demo_steps": 250,
+            "num_demos": 8,
+            "demo_cond": [
+                {"prompt": "Amen break 174 BPM"},
+                {"prompt": "A car honking on a busy street"},
+                {"prompt": "People talking in a crowded cafe"},
+                {"prompt": "A short, beautiful piano riff in C minor"},
+                {"prompt": "Tight Snare Drum"},
+                {"prompt": "Calm, meditative ambient drone"},
+                {"prompt": "Rattling snare"},
+                {"prompt": "Clean bright guitar loop"}
+            ],
+            "demo_cfg_scales": [3, 6, 9]
+        }
+    }
+}
diff --git a/harmonai_tools/interface/gradio.py b/harmonai_tools/interface/gradio.py
@@ -33,8 +33,8 @@ def load_model(model_config, model_ckpt_path, pretransform_ckpt_path=None, devic
     print(f"Loading model checkpoint from {model_ckpt_path}")
     
     # Load checkpoint
-    #copy_state_dict(model, torch.load(model_ckpt_path)["state_dict"])
-    model.load_state_dict(torch.load(model_ckpt_path)["state_dict"])
+    copy_state_dict(model, torch.load(model_ckpt_path)["state_dict"])
+    #model.load_state_dict(torch.load(model_ckpt_path)["state_dict"])
 
     if pretransform_ckpt_path is not None:
         print(f"Loading pretransform checkpoint from {pretransform_ckpt_path}")
@@ -392,7 +392,7 @@ def create_autoencoder_ui(model_config):
     is_dac_rvq = "model" in model_config and "bottleneck" in model_config["model"] and model_config["model"]["bottleneck"]["type"] in ["dac_rvq","dac_rvq_vae"]
 
     if is_dac_rvq:
-        n_quantizers = model["bottleneck"]["config"]["num_quantizers"]
+        n_quantizers = model_config["model"]["bottleneck"]["config"]["n_codebooks"]
     else:
         n_quantizers = 0
 
diff --git a/harmonai_tools/models/autoencoders.py b/harmonai_tools/models/autoencoders.py
@@ -328,7 +328,7 @@ def encode(self, audio, return_info=False, skip_pretransform=False, **kwargs):
             latents = rearrange(latents, 'b c t -> b t c')
             latents = self.latent_pca.transform(latents)
             latents = rearrange(latents, 'b t c -> b c t')
-
+        
         if return_info:
             return latents, info
 
diff --git a/harmonai_tools/models/bottleneck.py b/harmonai_tools/models/bottleneck.py
@@ -192,7 +192,15 @@ def encode(self, x, return_info=False, **kwargs):
         if self.quantize_on_decode:
             return x, info if return_info else x
 
-        output = self.quantizer(x, **kwargs)
+        z, codes, latents, commitment_loss, codebook_loss = self.quantizer(x, **kwargs)
+
+        output = {
+            "z": z,
+            "codes": codes,
+            "latents": latents,
+            "vq/commitment_loss": commitment_loss,
+            "vq/codebook_loss": codebook_loss,
+        }
 
         output["vq/commitment_loss"] /= self.num_quantizers
         output["vq/codebook_loss"] /= self.num_quantizers
@@ -207,7 +215,7 @@ def encode(self, x, return_info=False, **kwargs):
     def decode(self, x):
 
         if self.quantize_on_decode:
-            x = self.quantizer(x)["z"]
+            x = self.quantizer(x)[0]
 
         return x
 
diff --git a/harmonai_tools/models/factory.py b/harmonai_tools/models/factory.py
@@ -16,8 +16,8 @@ def create_model_from_config(model_config):
         from .autoencoders import create_diffAE_from_config
         return create_diffAE_from_config(model_config)
     elif model_type == 'musicgen':
-        from audiocraft.models import MusicGen
-        return MusicGen.get_pretrained(model_config["model"]["pretrained"], device="cpu")
+        from .musicgen import create_musicgen_from_config
+        return create_musicgen_from_config(model_config)
     else:
         raise NotImplementedError(f'Unknown model type: {model_type}')
     
diff --git a/harmonai_tools/models/musicgen.py b/harmonai_tools/models/musicgen.py
@@ -0,0 +1,161 @@
+import torch
+import typing as tp
+from audiocraft.models import MusicGen, CompressionModel, LMModel
+import audiocraft.quantization as qt
+from .autoencoders import AudioAutoencoder
+from .bottleneck import DACRVQBottleneck, DACRVQVAEBottleneck
+
+from audiocraft.modules.codebooks_patterns import (
+    DelayedPatternProvider,
+    MusicLMPattern,
+    ParallelPatternProvider,
+    UnrolledPatternProvider,
+    VALLEPattern,
+)
+
+from audiocraft.modules.conditioners import (
+    ConditionFuser,
+    ConditioningProvider,
+    T5Conditioner,
+)
+
+def create_musicgen_from_config(config):
+    model_config = config.get('model', None)
+    assert model_config is not None, 'model config must be specified in config'
+
+    if model_config.get("pretrained", False):
+        model = MusicGen.get_pretrained(model_config["pretrained"], device="cpu")
+
+        if model_config.get("reinit_lm", False):
+            model.lm._init_weights("gaussian", "current", True)
+    
+        return model
+    
+    # Create MusicGen model from scratch
+    compression_config = model_config.get('compression', None)
+    assert compression_config is not None, 'compression config must be specified in model config'
+
+    compression_type = compression_config.get('type', None)
+    assert compression_type is not None, 'type must be specified in compression config'
+
+    if compression_type == 'pretrained':
+        compression_model = CompressionModel.get_pretrained(compression_config["config"]["name"])
+    elif compression_type == "dac_rvq_ae":
+        from .autoencoders import create_autoencoder_from_config
+        autoencoder = create_autoencoder_from_config({"model": compression_config["config"], "sample_rate": config["sample_rate"]})
+        autoencoder.load_state_dict(torch.load(compression_config["ckpt_path"], map_location="cpu")["state_dict"])
+        compression_model = DACRVQCompressionModel(autoencoder)
+    
+    lm_config = model_config.get('lm', None)
+    assert lm_config is not None, 'lm config must be specified in model config'
+
+    codebook_pattern = lm_config.pop("codebook_pattern", "delay")
+
+    pattern_providers = {
+        'parallel': ParallelPatternProvider,
+        'delay': DelayedPatternProvider,
+        'unroll': UnrolledPatternProvider,
+        'valle': VALLEPattern,
+        'musiclm': MusicLMPattern,
+    }
+
+    pattern_provider = pattern_providers[codebook_pattern](n_q=compression_model.num_codebooks)
+
+    conditioning_config = model_config.get("conditioning", {})
+
+    condition_output_dim = conditioning_config.get("output_dim", 768)
+
+    condition_provider = ConditioningProvider(
+        conditioners = {
+            "description": T5Conditioner(
+                name="t5-base",
+                output_dim=condition_output_dim,
+                word_dropout=0.3,
+                normalize_text=False,
+                finetune=False,
+                device="cpu"
+            )
+        }
+    )
+
+    condition_fuser = ConditionFuser(fuse2cond={
+        "cross": ["description"],
+        "prepend": [],
+        "sum": []
+        })
+
+    lm = LMModel(
+        pattern_provider = pattern_provider,
+        condition_provider = condition_provider,
+        fuser = condition_fuser,
+        n_q = compression_model.num_codebooks,
+        card = compression_model.cardinality,
+        **lm_config
+    )
+
+
+    model = MusicGen(
+        name = model_config.get("name", "musicgen-scratch"),
+        compression_model = compression_model,
+        lm = lm,
+        max_duration=30
+    )
+
+    return model
+
+class DACRVQCompressionModel(CompressionModel):
+    def __init__(self, autoencoder: AudioAutoencoder):
+        super().__init__()
+        self.model = autoencoder.eval()
+
+        assert isinstance(self.model.bottleneck, DACRVQBottleneck) or isinstance(self.model.bottleneck, DACRVQVAEBottleneck), "Autoencoder must have a DACRVQBottleneck or DACRVQVAEBottleneck"
+
+        self.n_quantizers = self.model.bottleneck.num_quantizers
+
+    def forward(self, x: torch.Tensor) -> qt.QuantizedResult:
+        raise NotImplementedError("Forward and training with DAC RVQ not supported")
+
+    def encode(self, x: torch.Tensor) -> tp.Tuple[torch.Tensor, tp.Optional[torch.Tensor]]:
+        _, info = self.model.encode(x, return_info=True, n_quantizers=self.n_quantizers)
+        codes = info["codes"]
+        return codes, None
+
+    def decode(self, codes: torch.Tensor, scale: tp.Optional[torch.Tensor] = None):
+        assert scale is None
+        z_q = self.decode_latent(codes)
+        return self.model.decode(z_q)
+
+    def decode_latent(self, codes: torch.Tensor):
+        """Decode from the discrete codes to continuous latent space."""
+        return self.model.bottleneck.quantizer.from_codes(codes)[0]
+
+    @property
+    def channels(self) -> int:
+        return self.model.io_channels
+
+    @property
+    def frame_rate(self) -> float:
+        return self.model.sample_rate / self.model.downsampling_ratio
+
+    @property
+    def sample_rate(self) -> int:
+        return self.model.sample_rate
+
+    @property
+    def cardinality(self) -> int:
+        return self.model.bottleneck.quantizer.codebook_size
+
+    @property
+    def num_codebooks(self) -> int:
+        return self.n_quantizers
+
+    @property
+    def total_codebooks(self) -> int:
+        self.model.bottleneck.num_quantizers
+
+    def set_num_codebooks(self, n: int):
+        """Set the active number of codebooks used by the quantizer.
+        """
+        assert n >= 1
+        assert n <= self.total_codebooks
+        self.n_quantizers = n
diff --git a/harmonai_tools/training/diffusion.py b/harmonai_tools/training/diffusion.py
diff --git a/harmonai_tools/training/musicgen.py b/harmonai_tools/training/musicgen.py
diff --git a/setup.py b/setup.py