new: Add multitask config

ivyleavedtoadflax · ivyleavedtoadflax · commit 182a9cb55058 · 2020-03-30T17:50:35.000-03:00
diff --git a/deep_reference_parser/configs/2020.3.18_multitask.ini b/deep_reference_parser/configs/2020.3.18_multitask.ini
@@ -0,0 +1,41 @@
+[DEFAULT]
+version = 2020.3.18_multitask
+description = Multitask model trained on a combination of Reach and Rodrigues 
+    data. The Rodrigues data have been concatenated into a single continuous
+    document and then cut into sequences of length=line_length, so that the
+    Rodrigues data and Reach data have the same lengths without need for much
+    padding or truncating.
+deep_reference_parser_version = b61de984f95be36445287c40af4e65a403637692
+
+[data]
+# Note that test and valid proportion are only used for data creation steps, 
+# not when running the train command.
+test_proportion = 0.25
+valid_proportion = 0.25
+data_path = data/
+respect_line_endings = 0
+respect_doc_endings = 1
+line_limit = 150
+policy_train = data/multitask/2020.3.18_multitask_train.tsv
+policy_test = data/multitask/2020.3.18_multitask_test.tsv
+policy_valid = data/multitask/2020.3.18_multitask_valid.tsv
+s3_slug = https://datalabs-public.s3.eu-west-2.amazonaws.com/deep_reference_parser/
+
+[build]
+output_path = models/multitask/2020.3.18_multitask/
+output = crf
+word_embeddings = embeddings/2020.1.1-wellcome-embeddings-300.txt
+pretrained_embedding = 0
+dropout = 0.5
+lstm_hidden = 400
+word_embedding_size = 300
+char_embedding_size = 100
+char_embedding_type = BILSTM
+optimizer = adam
+
+[train]
+epochs = 60
+batch_size = 100
+early_stopping_patience = 5
+metric = val_f1
+