manhph2211
diff --git a/‎.gitignore‎
Lines changed: 2 additions & 1 deletion b/‎.gitignore‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎configs/config.yml‎
Lines changed: 4 additions & 4 deletions b/‎configs/config.yml‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎data/.gitignore‎
Lines changed: 2 additions & 1 deletion b/‎data/.gitignore‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎data/custom.py‎
Lines changed: 3 additions & 3 deletions b/‎data/custom.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎datasets/dataset.py‎
Lines changed: 1 addition & 2 deletions b/‎datasets/dataset.py‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎tools/train.py‎
Lines changed: 3 additions & 4 deletions b/‎tools/train.py‎
Lines changed: 3 additions & 4 deletions
diff --git a/‎utils/utils.py‎
Lines changed: 3 additions & 3 deletions b/‎utils/utils.py‎
Lines changed: 3 additions & 3 deletions
@@ -1,6 +1,7 @@
 #custom
 ctcdecode/
-
+wandb/
+yttm*
 
 # Byte-compiled / optimized / DLL files
 __pycache__/
 
@@ -1,15 +1,15 @@
 dataset:
-  root: data/custom_data
+  root: data/
   train_part: 0.95
-  name: vlsp
+  name: custom_data
   sample_rate: 22050
 bpe:
   train: true
   model_path: yttm.bpe
 train:
   seed: 42
-  num_workers: 16
-  batch_size: 32
+  num_workers: 4
+  batch_size: 1
   clip_grad_norm: 15
   epochs: 42
   optimizer:
 
@@ -1,2 +1,3 @@
 vlsp*/
-custom_data
+custom_data
+LJ*
@@ -10,18 +10,18 @@ def get_text(path_to_script_file):
     return text
 
 
-def make(root='data', name='vlsp2020_train_set_02', save='custom_data'):
+def make(root='data', name='vlsp2020_train_set_02', save='LJSpeech-1.1'):
     if not os.path.isdir(os.path.join(root, save, 'wavs')):
         os.mkdir(os.path.join(root, save, 'wavs'))
     all_audio_file_paths = glob.glob(os.path.join(root, name,"*.wav"))
     all_script_file_paths = glob.glob(os.path.join(root, name,"*.txt"))
     for audio_file in tqdm(all_audio_file_paths):
-        file_name = audio_file.split('\\')[-1]
+        file_name = audio_file.split('/')[-1]
         os.rename(audio_file, os.path.join(root,save,"wavs",file_name))
     with open(os.path.join(root,save,'metadata.csv'), 'w', encoding='UTF8', newline='') as f:
         writer = csv.writer(f, delimiter="|")
         for text_file in tqdm(all_script_file_paths):
-            file_name = text_file.split("\\")[-1].split(".")[0]
+            file_name = text_file.split("/")[-1].split(".")[0]
             text = get_text(text_file)
             row = [file_name,text,text]
             writer.writerow(row)
 
@@ -15,12 +15,11 @@ def __getitem__(self, idx):
         return self.transforms({'audio' : audio, 'text': norm_text, 'sample_rate': sample_rate})
 
     def get_text(self, n):
-        line = self._walker[n]
+        line = self._flist[n]
         fileid, transcript, normalized_transcript = line
         return self.transforms({'text' : normalized_transcript})['text']
 
 
-
 def get_dataset(config, transforms=lambda x: x, part='train'):
     if part == 'train':
         dataset = LJSpeechDataset(root=config.dataset.root, download=False, transforms=transforms)
 
@@ -130,7 +130,7 @@ def train(config):
 
     criterion = nn.CTCLoss(blank=0, reduction='mean', zero_infinity=True)
     # criterion = nn.CTCLoss(blank=config.model.vocab_size)
-    decoder = BeamCTCDecoder(bpe=bpe)
+    decoder = GreedyDecoder(bpe=bpe)
 
     prev_wer = 1000
     wandb.init(project=config.wandb.project, config=config)
@@ -162,10 +162,9 @@ def train(config):
                     "train_cer": cer,
                     "train_samples": wandb.Table(
                         columns=['gt_text', 'pred_text'],
-                        data=zip(target_strings, decoded_output)
+                        data=list(zip(target_strings, decoded_output))
                     )
                 }, step=step)
-
         # validate:
         model.eval()
         val_stats = defaultdict(list)
@@ -202,7 +201,7 @@ def train(config):
 
 if __name__ == '__main__':
     parser = argparse.ArgumentParser(description='Training model.')
-    parser.add_argument('--config', default='configs/train_LJSpeech.yml',
+    parser.add_argument('--config', default='configs/config.yml',
                         help='path to config file')
     args = parser.parse_args()
     with open(args.config, 'r') as f:
 
@@ -5,7 +5,8 @@
 import youtokentome as yttm
 import os
 import importlib
-from data.transforms import TextPreprocess
+from datasets.transforms import TextPreprocess
+from datasets.dataset import get_dataset
 
 
 def fix_seeds(seed=42):
@@ -22,10 +23,9 @@ def remove_from_dict(the_dict, keys):
     return the_dict
 
 def prepare_bpe(config):
-    dataset_module = importlib.import_module(f'.{config.dataset.name}', data.__name__)
     # train BPE
     if config.bpe.get('train', False):
-        dataset, ids = dataset_module.get_dataset(config, part='bpe', transforms=TextPreprocess())
+        dataset, ids = get_dataset(config, part='bpe', transforms=TextPreprocess())
         train_data_path = 'bpe_texts.txt'
         with open(train_data_path, "w") as f:
             # run ovefr only train part
-Original file line number
+Diff line change
@@ @@ -1,2 +1,3 @@ @@
 vlsp*/
 -custom_data
 +custom_data
 +LJ*