train/test/dev checking now made explicit

josh · josh · commit 7bee1cf44566 · 2019-02-01T15:28:32.000+01:00
diff --git a/bin/import_cv2.py b/bin/import_cv2.py
@@ -11,15 +11,13 @@
 import subprocess
 import progressbar
 
-from glob import glob
 from os import path
 from sox import Transformer
 from threading import RLock
 from multiprocessing.dummy import Pool
 from multiprocessing import cpu_count
 from util.downloader import SIMPLE_BAR
 
-
 '''
 Broadly speaking, this script takes the audio downloaded from Common Voice
 for a certain language, in addition to the *.tsv files output by CorporaCeator,
@@ -31,7 +29,8 @@
 
 Input: 
         (1) audio_dir (string) path to dir of audio downloaded from Common Voice
-        (2) tsv_dir (string) path to dir containing tsv files generated by CorporaCreator
+        (2) tsv_dir (string) path to dir containing {train,test,dev}.tsv files 
+            which were generated by CorporaCreator
 
 Ouput:
         (1) csv files in format needed by DeepSpeech.py, saved into audio_dir
@@ -43,15 +42,13 @@
 MAX_SECS = 10
 
 def _preprocess_data(audio_dir, tsv_dir):
-    try:
-        # Check if there is at least one TSV file in tsv_dir
-        os.path.isfile(glob(path.join(path.abspath(tsv_dir), '*.tsv'))[0])
-        for input_tsv in glob(path.join(path.abspath(tsv_dir), '*.tsv')):
-            print("Loading in TSV file: ", input_tsv)
+    for dataset in ['train','test','dev']:
+        input_tsv= path.join(path.abspath(tsv_dir), dataset+".tsv")
+        if os.path.isfile(input_tsv):
+            print("Loading TSV file: ", input_tsv)
             _maybe_convert_set(audio_dir, input_tsv)
-    except IndexError:
-        print("ERROR: no TSV file found in: ", tsv_dir)
-
+        else:
+            print("ERROR: no TSV file found: ", input_tsv)
 
 def _maybe_convert_set(audio_dir, input_tsv):
     output_csv =  path.join(audio_dir,os.path.split(input_tsv)[-1].replace('tsv', 'csv'))