lucidrains
diff --git a/‎audiolm_pytorch/audiolm_pytorch.py‎
Lines changed: 24 additions & 23 deletions b/‎audiolm_pytorch/audiolm_pytorch.py‎
Lines changed: 24 additions & 23 deletions
diff --git a/‎audiolm_pytorch/data.py‎
Lines changed: 5 additions & 3 deletions b/‎audiolm_pytorch/data.py‎
Lines changed: 5 additions & 3 deletions
diff --git a/‎audiolm_pytorch/soundstream.py‎
Lines changed: 5 additions & 4 deletions b/‎audiolm_pytorch/soundstream.py‎
Lines changed: 5 additions & 4 deletions
diff --git a/‎audiolm_pytorch/trainer.py‎
Lines changed: 28 additions & 26 deletions b/‎audiolm_pytorch/trainer.py‎
Lines changed: 28 additions & 26 deletions
@@ -1,7 +1,8 @@
+from __future__ import annotations
+
 import math
 from functools import partial, wraps
 
-from beartype.typing import Optional, Union, List
 from beartype import beartype
 
 import torch
@@ -625,7 +626,7 @@ def forward(
         *,
         ids = None,
         return_loss = False,
-        text: Optional[List[str]] = None,
+        text: list[str] | None = None,
         text_embeds = None,
         self_attn_mask = None,
         cond_drop_prob = None,
@@ -813,7 +814,7 @@ def forward(
         semantic_token_ids,
         coarse_token_ids,
         self_attn_mask = None,
-        text: Optional[List[str]] = None,
+        text: list[str] | None = None,
         text_embeds = None,
         cond_drop_prob = None,
         return_only_coarse_logits = False,
@@ -1089,7 +1090,7 @@ def forward(
         self,
         coarse_token_ids,
         fine_token_ids,
-        text: Optional[List[str]] = None,
+        text: list[str] | None = None,
         text_embeds = None,
         cond_drop_prob = None,
         self_attn_mask = None,
@@ -1327,8 +1328,8 @@ def __init__(
         self,
         *,
         transformer: SemanticTransformer,
-        wav2vec: Optional[Union[FairseqVQWav2Vec, HubertWithKmeans]] = None,
-        audio_conditioner: Optional[AudioConditionerBase] = None,
+        wav2vec: FairseqVQWav2Vec | HubertWithKmeans | None = None,
+        audio_conditioner: AudioConditionerBase | None = None,
         pad_id = -1,
         unique_consecutive = True,
         mask_prob = 0.15
@@ -1362,7 +1363,7 @@ def generate(
         self,
         *,
         max_length,
-        text: Optional[List[str]] = None,
+        text: list[str] | None = None,
         text_embeds = None,
         prime_wave = None,
         prime_wave_input_sample_hz = None,
@@ -1524,9 +1525,9 @@ def __init__(
         self,
         *,
         transformer: CoarseTransformer,
-        codec: Optional[Union[SoundStream, EncodecWrapper]]  = None,
-        wav2vec: Optional[Union[FairseqVQWav2Vec, HubertWithKmeans]] = None,
-        audio_conditioner: Optional[AudioConditionerBase] = None,
+        codec: SoundStream | EncodecWrapper | None  = None,
+        wav2vec: FairseqVQWav2Vec | HubertWithKmeans | None = None,
+        audio_conditioner: AudioConditionerBase | None = None,
         pad_id = -1,
         unique_consecutive = True,
         semantic_cross_entropy_loss_weight = 1.,
@@ -1564,10 +1565,10 @@ def generate(
         self,
         *,
         semantic_token_ids,
-        prime_wave: Optional[Tensor] = None,
+        prime_wave: Tensor | None = None,
         prime_wave_input_sample_hz = None,
-        prime_coarse_token_ids: Optional[Tensor] = None,
-        text: Optional[List[str]] = None,
+        prime_coarse_token_ids: Tensor | None = None,
+        text: list[str] | None = None,
         text_embeds = None,
         max_time_steps = 512,
         cond_scale = 3.,
@@ -1811,8 +1812,8 @@ def __init__(
         self,
         *,
         transformer: FineTransformer,
-        codec: Optional[Union[SoundStream, EncodecWrapper]] = None,
-        audio_conditioner: Optional[AudioConditionerBase] = None,
+        codec: SoundStream | EncodecWrapper | None = None,
+        audio_conditioner: AudioConditionerBase | None = None,
         coarse_cross_entropy_loss_weight = 1.,
         pad_id = -1,
         mask_prob = 0.15
@@ -1852,10 +1853,10 @@ def generate(
         self,
         *,
         coarse_token_ids,
-        prime_wave: Optional[Tensor] = None,
+        prime_wave: Tensor | None = None,
         prime_wave_input_sample_hz = None,
-        prime_fine_token_ids: Optional[Tensor] = None,
-        text: Optional[List[str]] = None,
+        prime_fine_token_ids: Tensor | None = None,
+        text: list[str] | None = None,
         text_embeds = None,
         cond_scale = 3.,
         filter_thres = 0.9,
@@ -2095,12 +2096,12 @@ class AudioLM(nn.Module):
     def __init__(
         self,
         *,
-        wav2vec: Optional[Union[FairseqVQWav2Vec, HubertWithKmeans]], 
-        codec: Union[SoundStream, EncodecWrapper],
+        wav2vec: FairseqVQWav2Vec | HubertWithKmeans | None, 
+        codec: SoundStream | EncodecWrapper,
         semantic_transformer: SemanticTransformer,
         coarse_transformer: CoarseTransformer,
         fine_transformer: FineTransformer,
-        audio_conditioner: Optional[AudioConditionerBase] = None,
+        audio_conditioner: AudioConditionerBase | None = None,
         unique_consecutive = True
     ):
         super().__init__()
@@ -2148,8 +2149,8 @@ def forward(
         self,
         *,
         batch_size = 1,
-        text: Optional[List[str]] = None,
-        text_embeds: Optional[Tensor] = None,
+        text: list[str] | None = None,
+        text_embeds: Tensor | None = None,
         prime_wave = None,
         prime_wave_input_sample_hz = None,
         prime_wave_path = None,
 
@@ -1,3 +1,5 @@
+from __future__ import annotations
+
 from pathlib import Path
 from functools import partial, wraps
 
@@ -35,10 +37,10 @@ class SoundDataset(Dataset):
     def __init__(
         self,
         folder,
-        target_sample_hz: Union[int, Tuple[int, ...]],  # target sample hz must be specified, or a tuple of them if one wants to return multiple resampled
+        target_sample_hz: int | Tuple[int, ...],  # target sample hz must be specified, or a tuple of them if one wants to return multiple resampled
         exts = ['flac', 'wav', 'mp3', 'webm'],
-        max_length: Optional[int] = None,               # max length would apply to the highest target_sample_hz, if there are multiple
-        seq_len_multiple_of: Optional[Union[int, Tuple[Optional[int], ...]]] = None
+        max_length: int | None = None,               # max length would apply to the highest target_sample_hz, if there are multiple
+        seq_len_multiple_of: int | tuple[int | None, ...] | None = None
     ):
         super().__init__()
         path = Path(folder)
 
@@ -1,8 +1,9 @@
+from __future__ import annotations
+
 import functools
 from pathlib import Path
 from functools import partial, wraps
 from itertools import cycle, zip_longest
-from typing import Optional, List
 
 import torch
 from torch import nn, einsum
@@ -455,8 +456,8 @@ def __init__(
         strides = (2, 4, 5, 8),
         channel_mults = (2, 4, 8, 16),
         codebook_dim = 512,
-        codebook_size: Optional[int] = None,
-        finite_scalar_quantizer_levels: Optional[List[int]] = None,
+        codebook_size: int | None = None,
+        finite_scalar_quantizer_levels: list[int] | None = None,
         rq_num_quantizers = 8,
         rq_commitment_weight = 1.,
         rq_ema_decay = 0.95,
@@ -492,7 +493,7 @@ def __init__(
         squeeze_excite = False,
         complex_stft_discr_logits_abs = True,
         pad_mode = 'reflect',
-        stft_discriminator: Optional[Module] = None,  # can pass in own stft discriminator
+        stft_discriminator: Module | None = None,  # can pass in own stft discriminator
         complex_stft_discr_kwargs: dict = dict()
     ):
         super().__init__()
 
@@ -1,3 +1,5 @@
+from __future__ import annotations
+
 import re
 import copy
 from math import sqrt
@@ -9,7 +11,7 @@
 from collections import Counter
 from contextlib import contextmanager, nullcontext
 
-from beartype.typing import Union, List, Optional, Tuple, Type
+from beartype.typing import Type
 from typing_extensions import Annotated
 
 from beartype import beartype
@@ -79,7 +81,7 @@ def check_one_trainer():
         torch.Tensor,
         Is[lambda t: t.dtype == torch.float and t.ndim in {2, 3}]
     ],
-    text = List[str],
+    text = list[str],
     text_embeds = Annotated[
         torch.Tensor,
         Is[lambda t: t.dtype == torch.float and t.ndim == 3]
@@ -166,7 +168,7 @@ def __init__(
         self,
         accelerator: Accelerator,
         optimizer: Optimizer,
-        scheduler: Optional[Type[_LRScheduler]] = None,
+        scheduler: Type[_LRScheduler] | None = None,
         scheduler_kwargs: dict = dict(),
         warmup_steps: int = 0
     ):
@@ -216,20 +218,20 @@ def __init__(
         num_train_steps: int,
         batch_size: int,
         data_max_length: int = None,
-        data_max_length_seconds: Union[int, float] = None,
+        data_max_length_seconds: int | float = None,
         folder: str = None,
-        dataset: Optional[Dataset] = None,
-        val_dataset: Optional[Dataset] = None,
-        train_dataloader: Optional[DataLoader] = None,
-        val_dataloader: Optional[DataLoader] = None,
+        dataset: Dataset | None = None,
+        val_dataset: Dataset | None = None,
+        train_dataloader: DataLoader | None = None,
+        val_dataloader: DataLoader | None = None,
         lr: float = 2e-4,
         grad_accum_every: int = 4,
         wd: float = 0.,
         warmup_steps: int = 1000,
-        scheduler: Optional[Type[_LRScheduler]] = None,
+        scheduler: Type[_LRScheduler] | None = None,
         scheduler_kwargs: dict = dict(),
-        discr_warmup_steps: Optional[int] = None,
-        discr_scheduler: Optional[Type[_LRScheduler]] = None,
+        discr_warmup_steps: int | None = None,
+        discr_scheduler: Type[_LRScheduler] | None = None,
         discr_scheduler_kwargs: dict = dict(),
         max_grad_norm: float = 0.5,
         discr_max_grad_norm: float = None,
@@ -245,7 +247,7 @@ def __init__(
         ema_update_every: int = 10,
         apply_grad_penalty_every: int = 4,
         dl_num_workers: int = 0,
-        accelerator: Optional[Accelerator] = None,
+        accelerator: Accelerator | None = None,
         accelerate_kwargs: dict = dict(),
         init_process_group_timeout_seconds = 1800,
         dataloader_drop_last = True,
@@ -715,14 +717,14 @@ class SemanticTransformerTrainer(nn.Module):
     @beartype
     def __init__(
         self,
-        wav2vec: Optional[Union[FairseqVQWav2Vec, HubertWithKmeans]],
+        wav2vec: FairseqVQWav2Vec | HubertWithKmeans | None,
         transformer: SemanticTransformer,
         *,
         num_train_steps,
         batch_size,
-        audio_conditioner: Optional[AudioConditionerBase] = None,
-        dataset: Optional[Dataset] = None,
-        valid_dataset: Optional[Dataset] = None,
+        audio_conditioner: AudioConditionerBase | None = None,
+        dataset: Dataset | None = None,
+        valid_dataset: Dataset | None = None,
         data_max_length = None,
         data_max_length_seconds = None,
         folder = None,
@@ -1009,15 +1011,15 @@ class CoarseTransformerTrainer(nn.Module):
     def __init__(
         self,
         transformer: CoarseTransformer,
-        codec: Union[SoundStream, EncodecWrapper],
-        wav2vec: Optional[Union[FairseqVQWav2Vec, HubertWithKmeans]],
+        codec: SoundStream | EncodecWrapper,
+        wav2vec: FairseqVQWav2Vec | HubertWithKmeans | None,
         *,
         num_train_steps,
         batch_size,
-        audio_conditioner: Optional[AudioConditionerBase] = None,
-        dataset: Optional[Dataset] = None,
-        valid_dataset: Optional[Dataset] = None,
-        ds_fields: Tuple[str, ...] = ('raw_wave', 'raw_wave_for_codec', 'text'),
+        audio_conditioner: AudioConditionerBase | None = None,
+        dataset: Dataset | None = None,
+        valid_dataset: Dataset | None = None,
+        ds_fields: tuple[str, ...] = ('raw_wave', 'raw_wave_for_codec', 'text'),
         data_max_length = None,
         data_max_length_seconds = None,
         folder = None,
@@ -1311,13 +1313,13 @@ class FineTransformerTrainer(nn.Module):
     def __init__(
         self,
         transformer: FineTransformer,
-        codec: Union[SoundStream, EncodecWrapper],
+        codec: SoundStream | EncodecWrapper,
         *,
         num_train_steps,
         batch_size,
-        audio_conditioner: Optional[AudioConditionerBase] = None,
-        dataset: Optional[Dataset] = None,
-        valid_dataset: Optional[Dataset] = None,
+        audio_conditioner: AudioConditionerBase | None = None,
+        dataset: Dataset | None = None,
+        valid_dataset: Dataset | None = None,
         data_max_length = None,
         data_max_length_seconds = None,
         dataset_normalize = False,