-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathdt_classification_RoBERTa_BERT.py
1675 lines (1602 loc) · 111 KB
/
dt_classification_RoBERTa_BERT.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
# Run this with python ./src/dt_classification_RoBERTa_BERT.py
from simpletransformers.classification import ClassificationModel
import pandas as pd
import logging
logging.basicConfig(level=logging.INFO)
transformers_logger = logging.getLogger("transformers")
transformers_logger.setLevel(logging.WARNING)
# EXPERIMENT 2020-05-31 12:02 (saved as BERT-002)
#
# exact same training and validation set on BERT (starting from BERTje)
# instead of RoBERTa (starting from RobBERT).
#
# "bert", "bert-base-dutch-cased", args=model_args, use_cuda=False,
#
# Current iteration: 100%|██████| 98/98 [04:59<00:00, 3.05s/it]
# Current iteration: 100%|██████| 98/98 [05:00<00:00, 3.07s/it]
# Epoch: 100%|██████████████████| 25/25 [2:08:40<00:00, 308.83s/it]
# INFO:simpletransformers.classification.classification_model: Training of bert model complete. Saved to outputs/BERT.
# 100%|█████████████████████████| 102/102 [00:00<00:00, 2477.57it/s]
# 100%|█████████████████████████| 13/13 [00:10<00:00, 1.29it/s]
# {'mcc': 0.9615239476408232, 'tp': 49, 'tn': 51, 'fp': 0, 'fn': 2, 'eval_loss': 0.20460643590251074}
# [[ 5.111395 -5.48742 ]
# [ 5.471876 -5.5474777]
# [ 5.5272527 -5.7463064]
# [ 4.428422 -4.697301 ]
# [ 5.4127274 -5.610165 ]
# [ 5.447244 -5.715766 ]
# [ 5.5130663 -5.793852 ]
# [ 5.0585017 -5.049494 ]
# [ 4.7800083 -5.112671 ]
# [ 5.5343447 -5.761961 ]
# [ 5.5212507 -5.5568876]
# [ 5.286491 -5.688703 ]
# [ 5.267295 -5.5484114]
# [ 5.4039726 -5.5253396]
# [ 5.192679 -5.549696 ]
# [-5.1746907 5.276227 ]
# [-5.3219867 5.353194 ]
# [-5.3126545 5.2462006]
# [-4.913438 4.8702054]
# [-5.3589582 5.3462043]
# [-4.749749 4.562132 ]
# [ 5.1812696 -5.5788336]
# [-5.390094 5.343396 ]
# [-4.281552 4.2384214]
# [-5.2903805 5.4218926]
# [-5.315229 5.413042 ]
# [-5.3348227 5.5495043]
# [-5.316712 5.544341 ]
# [-5.281579 5.4809804]
# [-4.5201025 4.1594524]
# [ 5.2249866 -5.48246 ]
# [ 5.3918486 -5.547624 ]
# [ 5.4497204 -5.6028194]
# [-5.060828 5.331689 ]
# [-5.3027253 5.4815927]
# [-5.2946205 5.4156055]
# [ 5.415263 -5.6114016]
# [-5.3647633 5.54813 ]
# [ 5.339313 -5.4936895]
# [-5.2530584 5.5790462]
# [ 5.391132 -5.714444 ]
# [-5.314455 5.376251 ]
# [ 5.4304543 -5.6499567]
# [-5.2580214 5.5149055]
# [ 5.4218817 -5.747424 ]
# [-5.336051 5.430999 ]
# [ 5.3799148 -5.7330627]
# [-5.3154373 5.435623 ]
# [ 5.4247975 -5.723031 ]
# [-5.3228874 5.4106336]
# [ 5.362671 -5.6967745]
# [-5.313178 5.4934707]
# [ 5.477287 -5.566839 ]
# [ 5.406808 -5.5321035]
# [ 5.4216814 -5.5284786]
# [ 5.4597588 -5.5924873]
# [ 5.4863186 -5.5772486]
# [ 5.5374866 -5.5004225]
# [ 5.43305 -5.635558 ]
# [ 5.5013084 -5.5776873]
# [ 5.27345 -5.571902 ]
# [ 5.4486637 -5.6470976]
# [ 5.5183043 -5.6345167]
# [ 5.4711714 -5.5864754]
# [ 5.546668 -5.646266 ]
# [ 5.5264816 -5.6460013]
# [ 5.385339 -5.5243936]
# [-5.381531 5.492703 ]
# [-5.3669133 5.474416 ]
# [-5.319416 5.5468845]
# [-5.2994056 5.5289373]
# [-5.2984653 5.573763 ]
# [-5.3007474 5.5454073]
# [-5.301249 5.5563006]
# [-5.2890663 5.526185 ]
# [-5.3079047 5.4925957]
# [-5.32434 5.513077 ]
# [-5.3436627 5.554897 ]
# [-5.270789 5.5393085]
# [-5.334967 5.5130143]
# [-5.404586 5.506597 ]
# [-5.3714075 5.5363913]
# [ 2.3163326 -2.5617628]
# [ 5.21012 -5.5708275]
# [ 5.292959 -5.6353817]
# [ 5.4035473 -5.692708 ]
# [ 5.440398 -5.764679 ]
# [ 4.9500046 -5.3146133]
# [ 5.3127112 -5.653363 ]
# [ 5.4227896 -5.7039423]
# [ 5.3649263 -5.7005177]
# [ 5.4560976 -5.7365465]
# [-5.3407345 5.5525975]
# [-5.38649 5.557022 ]
# [-5.31571 5.550751 ]
# [ 5.056013 -5.452825 ]
# [-5.3392057 5.4568596]
# [-5.232628 5.467436 ]
# [-5.2749233 5.5440416]
# [-5.327382 5.2809696]
# [-5.3697815 5.367365 ]
# [-5.2624516 5.260819 ]]
# En in het heldendicht Hákonarmál is het Hákon de Goede die naar Walhalla wordt gevoerd door de walkure Göndul en Odin zend Hermóðr en Bragi om hem te begroeten.
# 1
# Het is toch erg dat hij dat niet vind.
# 1
# EXPERIMENT 2020-05-31 02:06 (saved as RoBERTa-006)
#
# Simplify the kolonisten sentence to be surely correct and add more examples, close to it.
# Epoch: 100%|█████████| 25/25 [2:13:11<00:00, 319.65s/it]
# INFO:simpletransformers.classification.classification_model: Training of roberta model complete. Saved to outputs/RoBERTa.
# INFO:simpletransformers.classification.classification_model: Converting to features started. Cache is not used.
# 100%|█████████████████| 102/102 [00:00<00:00, 1439.08it/s]
# 100%|█████████████████| 13/13 [00:10<00:00, 1.30it/s]
#
# {'mcc': 0.9805806756909202, 'tp': 50, 'tn': 51, 'fp': 0, 'fn': 1, 'eval_loss': 0.08347923998371698}
# [[ 4.9591312 -5.633513 ]
# [ 5.122364 -5.6699047 ]
# [ 5.2698197 -5.668359 ]
# [ 4.983685 -5.458906 ]
# [ 5.0875216 -5.4952636 ]
# [ 5.153851 -5.5694675 ]
# [ 5.2305074 -5.722063 ]
# [ 5.1144395 -5.514207 ]
# [ 4.909829 -5.1857233 ]
# [ 5.1540504 -5.6663837 ]
# [ 4.995392 -5.539169 ]
# [ 5.028898 -5.5018473 ]
# [ 4.9765177 -5.4874587 ]
# [ 4.977704 -5.488656 ]
# [ 5.211533 -5.5998464 ]
# [-0.45350692 0.86696804]
# [-5.073593 5.5877795 ]
# [-5.0992365 5.5705767 ]
# [-4.9955635 5.5025487 ]
# [-5.147484 5.639703 ]
# [-4.9762173 5.4959397 ]
# [-4.5698547 5.163216 ]
# [-4.929553 5.4638376 ]
# [-5.0611887 5.656111 ]
# [-5.1246643 5.6299605 ]
# [-5.156342 5.6464033 ]
# [-5.086931 5.5960293 ]
# [-5.1546383 5.6857243 ]
# [-5.1196046 5.655673 ]
# [-5.1214643 5.608301 ]
# [ 4.9289074 -5.323653 ]
# [ 5.0848045 -5.502764 ]
# [ 4.591576 -4.9302444 ]
# [-5.189645 5.6937943 ]
# [-5.0675554 5.472337 ]
# [-5.2025495 5.7157235 ]
# [ 5.058526 -5.4430075 ]
# [-5.241333 5.705537 ]
# [ 5.1085367 -5.4854765 ]
# [-5.2516804 5.713022 ]
# [ 5.1453414 -5.654397 ]
# [-5.109231 5.5511637 ]
# [ 5.0944653 -5.438364 ]
# [-5.261088 5.7036386 ]
# [ 5.152134 -5.6370516 ]
# [-5.108222 5.5692964 ]
# [ 5.135085 -5.604565 ]
# [-5.038591 5.595986 ]
# [ 5.1496086 -5.6535635 ]
# [-5.126161 5.5701933 ]
# [ 5.1359677 -5.594824 ]
# [-5.0283346 5.55464 ]
# [ 5.0339136 -5.5412636 ]
# [ 5.0781784 -5.514726 ]
# [ 5.1097865 -5.534877 ]
# [ 5.0897956 -5.5414257 ]
# [ 5.1504097 -5.625732 ]
# [ 5.0918026 -5.5610228 ]
# [ 5.046669 -5.540596 ]
# [ 5.1139183 -5.504115 ]
# [ 5.087221 -5.5719213 ]
# [ 5.1461425 -5.6500483 ]
# [ 5.212402 -5.715761 ]
# [ 5.0190134 -5.52023 ]
# [ 5.1681147 -5.6441555 ]
# [ 5.0711308 -5.501105 ]
# [ 5.1811237 -5.5462313 ]
# [-5.217927 5.7319727 ]
# [-5.1843805 5.6740685 ]
# [-5.1542163 5.689639 ]
# [-5.204287 5.6960773 ]
# [-5.2215624 5.719122 ]
# [-5.2170925 5.718548 ]
# [-5.1025124 5.694428 ]
# [-5.167139 5.6428633 ]
# [-5.2386875 5.719161 ]
# [-5.062565 5.6241627 ]
# [-5.193616 5.651948 ]
# [-5.2353544 5.698921 ]
# [-4.391782 4.9520054 ]
# [-5.2434645 5.710891 ]
# [-5.1754622 5.7148967 ]
# [ 1.2938663 -1.2423397 ]
# [ 4.9195566 -5.4055276 ]
# [ 4.730959 -5.234633 ]
# [ 4.9857454 -5.4376955 ]
# [ 4.9571166 -5.426717 ]
# [ 4.9341707 -5.298151 ]
# [ 5.0020022 -5.317093 ]
# [ 5.1012 -5.5448484 ]
# [ 5.1665764 -5.634622 ]
# [ 5.1104355 -5.6158094 ]
# [-5.0930576 5.5754957 ]
# [-5.2502537 5.650971 ]
# [-5.254675 5.6692643 ]
# [ 4.091552 -4.2747173 ]
# [-5.1215363 5.600084 ]
# [-5.217716 5.688514 ]
# [-5.2480345 5.695862 ]
# [-5.109842 5.562983 ]
# [-5.1332083 5.5727453 ]
# [-5.122587 5.6034427 ]]
# Het is toch erg dat hij dat niet vind.
# 1
# RESULTS 2020-05-30 18:33 (saved as -005)
#
# add 20 more validated correct sentences that where detected as fp
#
# One false negative, again for this sentence:
# Val binnen als de bewoners om hulp vragen, neem het land in, zend kolonisten naar het gebied of de vorst moet er zelf gaan wonen.
# 0
# with numbers: [-2.5789528 2.7389593]
# RESULTS 2020-05-30 02:08 (saved as -004)
#
# Add validations for vinden en lopen and add some more sentences in training set
# Add 250 validated and simetimes corrected false positives from nl.wikipedia
#
# Current iteration: 100%|█████| 95/95 [05:00<00:00, 3.17s/it]
# Epoch: 100%|█████████████████| 25/25 [2:11:19<00:00, 315.17s/it]0<00:00, 3.09s/it]
# INFO:simpletransformers.classification.classification_model: Training of roberta model complete. Saved to outputs/RoBERTa.
# INFO:simpletransformers.classification.classification_model: Converting to features started. Cache is not used.
# 100%|████████████████████████| 102/102 [00:00<00:00, 1245.33it/s]
# 100%|████████████████████████| 13/13 [00:09<00:00, 1.31it/s]
#
# {'mcc': 0.9805806756909202, 'tp': 50, 'tn': 51, 'fp': 0, 'fn': 1, 'eval_loss': 0.08637790219486655}
# [[ 5.072724 -5.16919 ]
# [ 5.2086973 -5.248765 ]
# [ 5.284417 -5.3928366]
# [ 5.120717 -5.1662865]
# [ 4.9712305 -5.1441336]
# [ 5.2334666 -5.1827936]
# [ 5.322767 -5.3885965]
# [ 4.909508 -4.7539134]
# [ 4.853618 -4.839903 ]
# [ 5.20203 -5.2738957]
# [ 5.2042103 -5.271866 ]
# [ 5.0572205 -5.148448 ]
# [ 5.089326 -5.1969914]
# [ 5.0874596 -5.1790833]
# [ 5.129769 -5.1137094]
# [-5.0539637 5.047777 ]
# [-5.3746557 5.1388187]
# [-5.3369727 5.0960712]
# [-5.282626 5.1276293]
# [-5.322479 5.0536184]
# [-5.032714 4.855646 ]
# [-4.835171 4.6840305]
# [-4.565631 4.4260798]
# [-5.3019485 5.093189 ]
# [-5.267249 5.0167694]
# [-5.34662 5.129101 ]
# [-5.4699116 5.3178396]
# [-5.47892 5.30897 ]
# [-5.4531016 5.30857 ]
# [-5.220925 4.930647 ]
# [ 5.0597696 -5.2147384]
# [ 5.26361 -5.2005615]
# [ 5.0512085 -5.173957 ]
# [-5.4979496 5.338931 ]
# [-4.9640255 4.72075 ]
# [-5.4883857 5.317644 ]
# [ 5.0230613 -5.1405973]
# [-5.545164 5.363612 ]
# [ 5.1490407 -5.2862864]
# [-5.55048 5.3330336]
# [ 5.303106 -5.384506 ]
# [-5.3270464 5.1791487]
# [ 5.178322 -5.310136 ]
# [-5.518806 5.321513 ]
# [ 5.301798 -5.390119 ]
# [-5.30515 5.1474786]
# [ 5.373068 -5.3882885]
# [-5.213668 5.0283823]
# [ 5.3066196 -5.3759317]
# [-5.3080626 5.1352725]
# [ 5.312237 -5.2794724]
# [-4.9575186 4.7886333]
# [ 5.0735064 -5.2443457]
# [ 5.1902084 -5.123019 ]
# [ 4.872652 -5.000147 ]
# [ 5.2282724 -5.3265486]
# [ 5.1672206 -5.2738647]
# [ 5.2104845 -5.364865 ]
# [ 5.1031866 -5.1206217]
# [ 5.2842927 -5.352386 ]
# [ 5.102346 -5.176386 ]
# [ 5.133417 -5.278416 ]
# [ 5.2977986 -5.341291 ]
# [ 4.9967813 -5.1879063]
# [ 5.2143106 -5.2748265]
# [ 5.131376 -5.148288 ]
# [ 5.023489 -4.9723454]
# [-5.492975 5.322645 ]
# [-5.522507 5.362359 ]
# [-5.5051312 5.3011465]
# [-5.5240717 5.332881 ]
# [-5.5137234 5.32992 ]
# [-5.505416 5.324025 ]
# [-5.495648 5.355701 ]
# [-5.3998194 5.2860165]
# [-5.5181065 5.3612056]
# [-5.5158806 5.3301334]
# [-5.4914 5.377198 ]
# [-5.534359 5.3273673]
# [-3.5064971 3.5955586]
# [-5.5436115 5.391565 ]
# [-5.570409 5.3429365]
# [ 2.0750597 -2.2529595]
# [ 5.05908 -5.173483 ]
# [ 5.085215 -5.299468 ]
# [ 4.8810205 -4.9527726]
# [ 5.1642423 -5.2596264]
# [ 4.818937 -4.872264 ]
# [ 5.06304 -5.1964526]
# [ 5.05728 -5.1795764]
# [ 5.204444 -5.2888927]
# [ 5.222419 -5.2816167]
# [-4.9257574 4.734909 ]
# [-5.4712234 5.3465385]
# [-5.4860864 5.3522663]
# [ 4.440975 -4.5250454]
# [-5.225274 5.0643606]
# [-5.493291 5.3201823]
# [-5.489069 5.317411 ]
# [-5.233225 5.0195584]
# [-5.2817893 5.129017 ]
# [-5.2512813 5.108218 ]]
# Het is toch erg dat hij dat niet vind.
# 1
# RESULTS 2020-05-28 18:28 (locally saved in RoBERTa-003)
#
# Add some explicit synthetic training data for `vinden` en `lopen`
#
# This added 1 "regression", where one case of "zenden" in the imperative form.
# Looks like "imperative" is more difficult to detect.
#
# INFO:simpletransformers.classification.classification_model: Training of roberta model complete. Saved to outputs/RoBERTa.
# INFO:simpletransformers.classification.classification_model:{'mcc': 0.9759000729485332, 'tp': 40, 'tn': 41, 'fp': 0, 'fn': 1, 'eval_loss': 0.06506455917075403}
# [[ 4.5127707 -5.189252 ]
# [ 4.422516 -5.141899 ]
# [ 4.4376254 -5.060404 ]
# [ 4.1830378 -4.784006 ]
# [ 4.48708 -5.177963 ]
# [ 3.5659823 -4.0448856]
# [ 4.509686 -5.238132 ]
# [ 3.2408845 -3.762731 ]
# [ 4.437847 -5.0309286]
# [ 4.515825 -5.193684 ]
# [ 4.564027 -5.113303 ]
# [ 4.39019 -5.027665 ]
# [ 4.528157 -5.1643867]
# [ 4.314218 -4.903183 ]
# [ 4.485026 -5.120996 ]
# [-3.8476033 4.5130563]
# [-4.5768366 5.0869884]
# [-4.5324497 5.054275 ]
# [-4.4260025 5.140185 ]
# [-4.5948057 5.082098 ]
# [-3.6306684 4.150005 ]
# [-4.4052696 4.963736 ]
# [ 2.6459968 -3.069624 ] # fn ("zendt" imperative form mistake not detected)
# [-4.6243696 5.317634 ]
# [-4.584487 5.075942 ]
# [-4.586463 5.059649 ]
# [-4.6279826 5.463476 ]
# [-4.532429 5.3678446]
# [-4.448793 5.161991 ]
# [-4.5559072 5.0067186]
# [ 4.579213 -5.2127857]
# [ 4.376686 -4.977299 ]
# [ 4.5584974 -5.2642884]
# [-4.59206 5.324033 ]
# [-4.632761 5.1654453]
# [-4.776362 5.431049 ]
# [ 4.4678965 -5.0713797]
# [-4.6983333 5.4305263]
# [ 4.273419 -5.012199 ]
# [-4.7211637 5.374429 ]
# [ 4.5263247 -5.2804236]
# [-4.5844965 5.113065 ]
# [ 4.494684 -5.2651405]
# [-4.7487335 5.483908 ]
# [ 4.5410194 -5.2400646]
# [-4.607552 5.1105533]
# [ 4.415904 -5.115765 ]
# [-4.6453424 5.1263723]
# [ 4.39664 -4.965718 ]
# [-4.6048393 5.1230874]
# [ 4.4536414 -5.1998444]
# [-4.6293106 5.094838 ]
# [ 4.5860386 -5.282308 ]
# [ 4.4852953 -5.177291 ]
# [ 4.5087943 -5.21908 ]
# [ 4.5944767 -5.331482 ]
# [ 4.5319943 -5.2086506]
# [ 4.587343 -5.27311 ]
# [ 4.4747114 -5.1729345]
# [ 4.537204 -5.256872 ]
# [ 4.5376263 -5.288742 ]
# [ 4.5452933 -5.2173653]
# [ 4.6053686 -5.2954736]
# [ 4.530226 -5.2567606]
# [ 4.5192127 -5.243206 ]
# [ 4.5766706 -5.2628508]
# [ 4.629884 -5.191097 ]
# [-4.714321 5.349707 ]
# [-4.717781 5.4232655]
# [-4.6720243 5.3952346]
# [-4.7530055 5.501216 ]
# [-4.742708 5.452851 ]
# [-4.757176 5.4781165]
# [-4.468812 5.224184 ]
# [-4.652919 5.317809 ]
# [-4.699972 5.350121 ]
# [-4.646487 5.416941 ]
# [-4.7006307 5.4282484]
# [-4.7796774 5.4409256]
# [-4.682902 5.2941995]
# [-4.7613935 5.4417305]
# [-4.7368574 5.473317 ]]
#
# Val binnen als de bewoners om hulp vragen, neem het land in, zendt kolonisten naar het gebied of de vorst moet er zelf gaan wonen.
# 1
# RESULTS 2020-05-28 13:17 (locally saved in RoBERTa-002)
#
# RoBERTa (starting from RobBERT)
# INFO:simpletransformers.classification.classification_model: Training of roberta model complete. Saved to outputs/RoBERTa.
# INFO:simpletransformers.classification.classification_model:{'mcc': 1.0, 'tp': 41, 'tn': 41, 'fp': 0, 'fn': 0, 'eval_loss': 0.005053876175225014}
# [[ 4.6935263 -5.299632 ]
# [ 4.739876 -5.272859 ]
# [ 4.804385 -5.299694 ]
# [ 4.619118 -5.1025896 ]
# [ 4.7337904 -5.2573957 ]
# [ 4.29041 -4.804528 ]
# [ 4.259543 -4.765708 ]
# [ 3.8679736 -4.427164 ]
# [ 4.798625 -5.340769 ]
# [ 4.8995905 -5.435626 ]
# [ 4.823574 -5.3109994 ]
# [ 4.847952 -5.3436356 ]
# [ 4.812998 -5.346259 ]
# [ 4.7617264 -5.329652 ]
# [ 4.843856 -5.3378963 ]
# [-4.935201 5.1497726 ]
# [-4.798888 5.0554223 ]
# [-4.7619348 5.063679 ]
# [-4.7235374 4.8281655 ]
# [-4.782861 5.0681353 ]
# [-0.35496756 0.23635131]
# [-4.4735813 4.5460997 ]
# [-4.6994047 4.8960485 ]
# [-4.906059 5.178655 ]
# [-4.770259 5.063603 ]
# [-4.7782955 5.0152216 ]
# [-4.9443974 5.196023 ]
# [-4.9170933 5.1531954 ]
# [-5.011503 5.221588 ]
# [-4.766834 5.0219913 ]
# [ 4.8645325 -5.4472637 ]
# [ 4.8867674 -5.3881817 ]
# [ 4.8108425 -5.4194045 ]
# [-4.9669847 5.2538815 ]
# [-4.7485967 5.0354385 ]
# [-4.954136 5.237783 ]
# [ 4.8593507 -5.3741894 ]
# [-4.920395 5.2319417 ]
# [ 4.929245 -5.416873 ]
# [-4.9791203 5.2341924 ]
# [ 4.6392393 -5.2027674 ]
# [-4.761677 4.95982 ]
# [ 4.909058 -5.4107447 ]
# [-4.942155 5.2152033 ]
# [ 4.6178465 -5.2029457 ]
# [-4.784238 5.0707846 ]
# [ 4.899327 -5.4450464 ]
# [-4.7530656 4.956899 ]
# [ 4.607891 -5.2004285 ]
# [-4.7850027 5.0463533 ]
# [ 4.9210377 -5.475134 ]
# [-4.739805 4.9209356 ]
# [ 4.8361053 -5.3827677 ]
# [ 4.611397 -5.139409 ]
# [ 4.859295 -5.3458548 ]
# [ 4.8503084 -5.387227 ]
# [ 4.8700905 -5.438501 ]
# [ 4.8844094 -5.4524364 ]
# [ 4.7202187 -5.316368 ]
# [ 4.8489137 -5.4567485 ]
# [ 4.7830987 -5.351675 ]
# [ 4.464333 -4.9829645 ]
# [ 4.7363973 -5.2618093 ]
# [ 4.504025 -5.1156025 ]
# [ 4.729541 -5.2668085 ]
# [ 4.8489923 -5.3830385 ]
# [ 4.9474735 -5.5054145 ]
# [-4.9825687 5.239164 ]
# [-5.014144 5.2661014 ]
# [-4.943488 5.247101 ]
# [-5.002887 5.261952 ]
# [-4.9884334 5.2598295 ]
# [-4.986342 5.263444 ]
# [-4.941221 5.2461824 ]
# [-4.949646 5.226528 ]
# [-4.990345 5.2413616 ]
# [-4.9485626 5.237907 ]
# [-4.9887533 5.25799 ]
# [-5.008194 5.2304497 ]
# [-4.8797836 5.1673765 ]
# [-4.9947886 5.2678313 ]
# [-4.9045987 5.21294 ]]
# RESULTS 2020-05-28 09:35 (locally saved in RoBERTa-001)
#
# RoBERTa (starting from RobBERT)
#
# INFO:simpletransformers.classification.classification_model: Training of roberta model complete. Saved to outputs/RoBERTa.
# INFO:simpletransformers.classification.classification_model:{'mcc': 1.0, 'tp': 41, 'tn': 41, 'fp': 0, 'fn': 0, 'eval_loss': 0.00381617154330756}
# [[ 4.5753427 -4.6702685 ]
# [ 4.322606 -4.407047 ]
# [ 4.3819847 -4.524763 ]
# [ 3.680751 -3.6428747 ]
# [ 4.3172317 -4.512207 ]
# [ 4.032283 -4.213521 ]
# [ 4.163336 -4.26132 ]
# [ 0.7128651 -0.27663833]
# [ 4.5186977 -4.513592 ]
# [ 4.4825363 -4.6667995 ]
# [ 4.3640966 -4.5364428 ]
# [ 4.583468 -4.6392927 ]
# [ 4.5836935 -4.698412 ]
# [ 4.501642 -4.477024 ]
# [ 4.413611 -4.533053 ]
# [-4.3869634 4.462762 ]
# [-4.569793 4.9293733 ]
# [-4.5557084 4.8659973 ]
# [-4.2262855 4.3428526 ]
# [-4.5420055 4.930031 ]
# [-2.1568494 2.4384296 ]
# [-4.4560766 4.887041 ]
# [-4.216442 4.4454856 ]
# [-4.574249 4.711686 ]
# [-4.572736 4.9549685 ]
# [-4.5589314 4.902771 ]
# [-4.4648952 4.575341 ]
# [-4.422946 4.571241 ]
# [-4.4544244 4.6230154 ]
# [-4.5074515 4.8741407 ]
# [ 4.637774 -4.6137266 ]
# [ 4.567644 -4.4082522 ]
# [ 4.608046 -4.5176353 ]
# [-4.599269 4.8673286 ]
# [-4.4709277 4.931296 ]
# [-4.5290375 4.8167367 ]
# [ 4.623726 -4.6204634 ]
# [-4.6079974 4.8498473 ]
# [ 4.6572576 -4.5675945 ]
# [-4.6000366 4.9142685 ]
# [ 4.632883 -4.5538635 ]
# [-4.5706453 4.943189 ]
# [ 4.62426 -4.5082335 ]
# [-4.5314255 4.8604674 ]
# [ 4.633241 -4.536466 ]
# [-4.5005574 4.9172497 ]
# [ 4.2877016 -4.0582786 ]
# [-4.473968 4.8753147 ]
# [ 4.615284 -4.5457077 ]
# [-4.515874 4.866644 ]
# [ 4.289945 -4.0912843 ]
# [-4.473523 4.907734 ]
# [ 4.639594 -4.605216 ]
# [ 4.6339855 -4.5295987 ]
# [ 4.373646 -4.17642 ]
# [ 4.6453876 -4.605899 ]
# [ 4.59813 -4.5983443 ]
# [ 4.629885 -4.6334314 ]
# [ 4.599798 -4.506971 ]
# [ 4.6306686 -4.5693817 ]
# [ 4.687139 -4.5711784 ]
# [ 4.4958906 -4.4856234 ]
# [ 4.6976805 -4.5935545 ]
# [ 4.6504097 -4.528714 ]
# [ 4.6792145 -4.451483 ]
# [ 4.6627192 -4.511315 ]
# [ 4.45305 -4.4688444 ]
# [-4.543029 4.8302193 ]
# [-4.546851 4.8681374 ]
# [-4.570348 4.8890634 ]
# [-4.6193366 4.853761 ]
# [-4.5757713 4.874566 ]
# [-4.563562 4.8636317 ]
# [-4.5224524 4.853133 ]
# [-4.5163317 4.8367414 ]
# [-4.525481 4.903895 ]
# [-4.4851637 4.894338 ]
# [-4.5457535 4.8826365 ]
# [-4.5538707 4.8580217 ]
# [-4.513503 4.7983866 ]
# [-4.5821266 4.859266 ]
# [-4.574397 4.850874 ]]
# Preparing eval data
eval_data = [
# zenden
# Spelling correct
["Hij belooft hierbij de Heilige Geest te zenden en geeft ze de opdracht: \"Zoals de Vader Mij heeft uitgezonden, zo zend Ik jullie uit\"", 0],
["Enkel Turkse staats tv zendt nog in Koerdisch uit.", 0],
["Het leeuwendeel van de ontdekte neutronensterren zendt ook radiostraling uit, inclusief die in röntgen, optisch en gammastraling gedetecteerd zijn", 0],
["In Openbaringen 1 schrijft Johannes het volgende: \"Hetgeen gij ziet, schrijf dat in een boek en zend het aan de zeven gemeenten.\"", 0],
["RTL 4 zendt het programma in december 2019 en januari 2020 uit.", 0],
["Een oplossing is dan een digitale hoofdtelefoon die in en rond de 2,4 GHz ontvangt en zendt.", 0],
["En in het heldendicht Hákonarmál is het Hákon de Goede die naar Walhalla wordt gevoerd door de walkure Göndul en Odin zendt Hermóðr en Bragi om hem te begroeten.", 0],
["Val binnen als de bewoners om hulp vragen, neem het land in, zend kolonisten naar het gebied!", 0],
["En mijn broer Aaron is welsprekender dan ik; zend hem als hulp met mij mee om wat ik zeg te bevestigen, want ik ben bang dat zij mij van leugens zullen betichten.", 0],
["In een joodse pseudepigrafische tekst, het Testament van Abraham, zendt God de aartsengel Michaël naar Abraham met de boodschap dat deze zich dient voor te bereiden op zijn aanstaande dood.", 0],
["Sinds 2013 zendt Groot Nieuws Radio voorafgaand aan Opwekking een Top 100 uit van meest populaire Opwekkingsliederen.", 0],
["Via de Post zend ik nog al eens een pakje.", 0],
["Sinds wanneer zend jij mij berichten via email?", 0],
["Waarom zend je me steeds weer het bos in?", 0],
["Die combi-oven zendt zoveel straling uit dat je WiFi er plat van gaat.", 0],
# With spelling mistake
["Hij belooft hierbij de Heilige Geest te zenden en geeft ze de opdracht: \"Zoals de Vader Mij heeft uitgezonden, zo zendt Ik jullie uit\"", 1],
["Enkel Turkse staats tv zend nog in Koerdisch uit.", 1],
["Het leeuwendeel van de ontdekte neutronensterren zend ook radiostraling uit, inclusief die in röntgen, optisch en gammastraling gedetecteerd zijn", 1],
["In Openbaringen 1 schrijft Johannes het volgende: \"Hetgeen gij ziet, schrijf dat in een boek en zendt het aan de zeven gemeenten.\"", 1],
["RTL 4 zend het programma in december 2019 en januari 2020 uit.", 1],
["Een oplossing is dan een digitale hoofdtelefoon die in en rond de 2,4 GHz ontvangt en zend.", 1],
["En in het heldendicht Hákonarmál is het Hákon de Goede die naar Walhalla wordt gevoerd door de walkure Göndul en Odin zend Hermóðr en Bragi om hem te begroeten.", 1],
["Val binnen als de bewoners om hulp vragen, neem het land in, zendt kolonisten naar het gebied.", 1],
["En mijn broer Aaron is welsprekender dan ik; zendt hem als hulp met mij mee om wat ik zeg te bevestigen, want ik ben bang dat zij mij van leugens zullen betichten.", 1],
["In een joodse pseudepigrafische tekst, het Testament van Abraham, zend God de aartsengel Michaël naar Abraham met de boodschap dat deze zich dient voor te bereiden op zijn aanstaande dood.", 1],
["Sinds 2013 zend Groot Nieuws Radio voorafgaand aan Opwekking een Top 100 uit van meest populaire Opwekkingsliederen.", 1],
["Via de Post zendt ik nog al eens een pakje.", 1],
["Sinds wanneer zendt jij mij berichten via email?", 1],
["Waarom zendt je me steeds weer het bos in?", 1],
["Die combi-oven zend zoveel straling uit dat je WiFi er plat van gaat.", 1],
# worden
# Spelling correct
["Hoe word je gevraagd?", 0],
["Wat wordt je gevraagd?", 0],
["Wat word je opdringerig, zeg!", 0],
# With spelling mistake
["Hoe wordt je gevraagd?", 1],
["Wat word je gevraagd?", 1],
["Wat wordt je opdringerig, zeg!", 1],
# Previous validations (mixed correct and mistakes)
["Ik word volgend jaar ook getest.", 0],
["Ik wordt helemaal naar hier gehaald.", 1],
["Word ik volgend jaar ook uitgenodigd?", 0],
["Wordt ik nu al opgeroepen?", 1],
["Jij wordt volgend jaar ook getest.", 0],
["Jij word helemaal naar hier gehaald.", 1],
["Word jij volgend jaar ook uitgenodigd?", 0],
["Wordt jij nu al opgeroepen?", 1],
["Hij wordt volgend jaar ook getest.", 0],
["Hij word helemaal naar hier gehaald.", 1],
["Wordt hij volgend jaar ook uitgenodigd?", 0],
["Word hij nu al opgeroepen?", 1],
["Zij wordt volgend jaar ook getest.", 0],
["Zij word helemaal naar hier gehaald.", 1],
["Wordt zij volgend jaar ook uitgenodigd?", 0],
["Word zij nu al opgeroepen?", 1],
# Spelling correct
["In 1992 gaf de Stichting Popmuseum ook de brochure \"Hoe word je popmuzikant\" uit, met tips voor beginnende popmuzikanten.", 0],
["Nou Muijz dan word je bedankt: het werk van maanden sappelen gooi jij met één muisklik weg!", 0],
["Voor dat laatste werk kreeg hij kritiek van sommige Vlaams-nationalisten, kritiek die hij afwees met de woorden: \"Ik word door hen zowat beschouwd als een vaandelvluchtige, eenvoudig omdat ik me opsluit binnenshuis en zo hard werk als maar mogelijk is.\"", 0],
["Sinds september 2006 presenteert zij voor Talpa de tv-programma's \"Big Brother 6\" en \"Woef: Hoe word ik een beroemde hond?\"", 0],
["Op 27 augustus startte \"Hoe word ik een New Yorkse vrouw?\"", 0],
["In 2009 presenteerde ze de 4-delige serie \"Hoe word ik een Gooische Vrouw?\"", 0],
["Het moet me van het hart dat ik de laatste tijd een trend meen waar te nemen waar ik niet blij van word.", 0],
["Twee weken na zijn overlijden verschijnt van Groep Fosko het album 'Van iets maken word je blij'.", 0],
["Maar blijkbaar word je alleen beloond voor wat je hebt beloofd en niet op wat je hebt gedaan.", 0],
["De auditie kan een selectief karakter hebben: geslaagd of niet, je hebt voldoende talent of niet, of een vergelijkend karakter: je hoort bij de 15 beste kandidaten, dus word je toegelaten, aangezien we er maar 15 toelaten.", 0],
["Als je voor een dubbeltje geboren bent, word je nooit een kwartje, lijkt de boodschap aan het eind van de film.", 0],
["Simon Carmiggelt noteert in een van zijn cursiefjes: \"We kunnen geestig zijn in Amsterdam, daar word je weleens beroerd van.\"", 0],
["Ook de voortdurend terugkerende vaststelling dat wikipedia voor universitair studenten en wetenschappers nooit een gezaghebbende bron zal zijn, word ik een beetje zat.", 0],
["Dan word ik opgeofferd aan het ego van degene die een verkeerde beslissing heeft genomen, en dat lijkt me niet terecht.", 0],
["Ik word gewoon het offer dat gebracht moet worden om jullie te legitimeren een jacobijns schrikbewind te vestigen.", 0],
# With spelling mistake
["In 1992 gaf de Stichting Popmuseum ook de brochure \"Hoe wordt je popmuzikant\" uit, met tips voor beginnende popmuzikanten.", 1],
["Nou Muijz dan wordt je bedankt: het werk van maanden sappelen gooi jij met één muisklik weg!", 1],
["Voor dat laatste werk kreeg hij kritiek van sommige Vlaams-nationalisten, kritiek die hij afwees met de woorden: \"Ik wordt door hen zowat beschouwd als een vaandelvluchtige, eenvoudig omdat ik me opsluit binnenshuis en zo hard werk als maar mogelijk is.\"", 1],
["Sinds september 2006 presenteert zij voor Talpa de tv-programma's \"Big Brother 6\" en \"Woef: Hoe wordt ik een beroemde hond?\"", 1],
["Op 27 augustus startte \"Hoe wordt ik een New Yorkse vrouw?\"", 1],
["In 2009 presenteerde ze de 4-delige serie \"Hoe wordt ik een Gooische Vrouw?\"", 1],
["Het moet me van het hart dat ik de laatste tijd een trend meen waar te nemen waar ik niet blij van wordt.", 1],
["Twee weken na zijn overlijden verschijnt van Groep Fosko het album 'Van iets maken wordt je blij'.", 1],
["Maar blijkbaar wordt je alleen beloond voor wat je hebt beloofd en niet op wat je hebt gedaan.", 1],
["De auditie kan een selectief karakter hebben: geslaagd of niet, je hebt voldoende talent of niet, of een vergelijkend karakter: je hoort bij de 15 beste kandidaten, dus wordt je toegelaten, aangezien we er maar 15 toelaten.", 1],
["Als je voor een dubbeltje geboren bent, wordt je nooit een kwartje, lijkt de boodschap aan het eind van de film.", 1],
["Simon Carmiggelt noteert in een van zijn cursiefjes: \"We kunnen geestig zijn in Amsterdam, daar wordt je weleens beroerd van.\"", 1],
["Ook de voortdurend terugkerende vaststelling dat wikipedia voor universitair studenten en wetenschappers nooit een gezaghebbende bron zal zijn, wordt ik een beetje zat.", 1],
["Dan wordt ik opgeofferd aan het ego van degene die een verkeerde beslissing heeft genomen, en dat lijkt me niet terecht.", 1],
["Ik wordt gewoon het offer dat gebracht moet worden om jullie te legitimeren een jacobijns schrikbewind te vestigen.", 1],
# Vinden and lopen
# Spelling correct
["Ik vind dit toch niet zo mooi.", 0],
["Wat vind jij van al die aandacht?", 0],
["Hoe vind ik nu de ingang?", 0],
["Het is toch erg dat hij dat niet vindt.", 0],
["Hoe zwaar vindt hij de opleiding?", 0],
["Ik loop er zo maar voorbij.", 0],
["Loop jij ook zo snel?", 0],
["Je loopt daar beter niet telkens over.", 0],
["Jij loopt echt helemaal naar zee?", 0],
["En daarom loopt hij er met een grote bocht omheen.", 0],
# With spelling mistake
["Ik vindt dit toch niet zo mooi.", 1],
["Wat vindt jij van al die aandacht?", 1],
["Hoe vindt ik nu de ingang?", 1],
["Het is toch erg dat hij dat niet vind.", 1], # Incorrectly evaluated to "0"
["Hoe zwaar vind hij de opleiding?", 1],
["Ik loopt er zo maar voorbij.", 1],
["Loopt jij ook zo snel?", 1],
["Je loop daar beter niet telkens over.", 1],
["Jij loop echt helemaal naar zee?", 1],
["En daarom loop hij er met een grote bocht omheen.", 1],
]
eval_df = pd.DataFrame(eval_data)
eval_df.columns = ["text", "labels"]
# Preparing train data
# Correct Dutch sentences have a '0' label
# Sentences with a "dt" mistake for worden (word vs. wordt) and zenden (zend vs. zendt) have a '1' label
train_data = [
# zenden
# Correct spelling; synthetic
["Ik zend een pakje.", 0],
["Ik zend je een pakje.", 0],
["Ik zend u een heel mooie trui.", 0],
["Zend ik u best morgen al de nieuwe catalogus?", 0],
["Waarom zend ik je niet zelf voor die moeilijke opdracht?", 0],
["Wat zend ik best naar mijn moeder voor haar verjaardag?", 0],
["Zend ik die bestelling op donderdag op, en toch komt die pas op dinsdag aan!", 0],
["Je zendt het toch nog vandaag op, hoop ik.", 0],
["Jij zendt een hele grote doos naar oma.", 0],
["Zend je dat straks uit?", 0],
["Zend je deze bestelling nog even naar de klant?", 0],
["Zend je ook nog die laatste versie even door?", 0],
["Zend je dat vanavond laat ook uit?", 0],
["Waarom zend je dat niet via onze koerier?", 0],
["Zend jij echt die fiets via de post?", 0],
["Welke baas zendt je nu helemaal naar London voor 1 klant?", 0],
["Hoe laat zendt u de de nieuwe versie door?", 0],
["Zendt u dit volgende week al uit?", 0],
# Correct spelling; from nl.wikipedia (in _most_ cases, I needed to correct "zend" to "zendt" for 3rd person singular usage, except citations from the bible)
["Een gebed van Apollonius van Tyana uit ongeveer het jaar 23 AD: \"O, God van de Zon, zend me zover rond de wereld als goed is voor mij en jou, en dat ik goede mensen mag ontmoeten, maar nooit de slechte leer kennen, noch zij mij.", 0],
["Voor het ontvangen van omroepsignalen wordt de kenmerkende zend- en ontvangstmast van Naaldwijk gebouwd.", 0],
["Met de wet van behoud van energie geldt dan ook dat met 100 W aan de zend-trap nog steeds minder dan 100 W door de antenne uitgestraald zal worden.", 0],
["Deze fabriek richtte zich in eerste instantie op de productie van zend- en ontvanginstallaties voor schepen en vliegtuigen.", 0],
["Met zijn zend- en ontvangschoen roept hij Jerom en professor Barabas op en zij verslaan de tempelwachters in de doolhof.", 0],
["Het woord radio wordt eveneens gebruikt als afkorting voor radio-omroep, radio-ontvanger en zend- en ontvangapparatuur.", 0],
["Sponsor Motorola is een Amerikaans elektronicabedrijf en het experimenteerde als eerste met het gebruik van zend- en ontvangstapparatuur in de koers.", 0],
["De toren is ontworpen als onderkomen voor omroepzenders en als zend- en ontvangstation voor PTT/KPN straalverbindingen voor telefonie.", 0],
["En zend daarna een evaluatieteam in als iedereen is afgekoeld.", 0],
["Via zijn eigen zend-installatie zond hij berichten uit naar alle hoeken van de wereld; Amerika, Groenland, Indië en Australië, waarbij hij zich vlot van verschillende vreemde talen bediende.", 0],
["Het blad bevat naast verenigingsnieuws ook technische artikelen over zend- en ontvangtechnieken.", 0],
["Ten tijde van de kabel van 1866 waren zowel de kabelfabricage als de zend- en ontvangstapparatuur aanzienlijk verbeterd.", 0],
["Hiermee neemt de vaste autotelefoon de telefoonfunctie van de mobiele telefoon over: De zend-ontvang functie van de mobiele telefoon wordt in een stand-by modus gezet.", 0],
["Het voordeel van deze rSAP autotelefoons is een veel betere zend- en ontvangstkwaliteit.", 0],
["Ook de zend- en ontvangstkwaliteit is beter bij rsap.", 0],
["Sinds 2013 zendt ook 2BE de serie uit.", 0],
["In december 2010 zendt televisie- en internet aanbieder Ziggo een tweetal nieuwe 2 Meter Sessies uitzendingen uit op haar digitale televisiekanaal.", 0],
["Dat moge blijken uit het feit dat voor zowel zend- als ontvangstantenne in de UHF-omroepband kanalen 21-69 vrijwel altijd een universeel antennetype gebruikt wordt.", 0],
["'s Morgens zendt het kanaal de programmering van 24 h uit, met nieuws en achtergronden.", 0],
["Sinds 15 december 2008 zendt de zender uit tussen 6 en 20.15 uur op hetzelfde kanaal als Comedy Central Duitsland, en dit ook via de satelliet.", 0],
["Hierbij zendt de gebruiker alleen mentale energie naar zijn opponent, die daar wel door wordt overheerst en niet meer uit eigen wil kan handelen zolang deze Jutsu bezig is.", 0],
["Sinds 2017 zendt Veronica kwalificatiewedstrijden van het Nederlands vrouwenvoetbalelftal uit.", 0],
["De zend- en ontvangstinstallaties daarvoor waren echter groot en moeilijk verplaatsbaar.", 0],
["Zie, Ik zend u de profeet Elia, voordat de grote en geduchte dag van Jahweh komt.", 0],
["Het woord radio wordt eveneens gebruikt als afkorting voor radio-omroep, radio-ontvanger en zend- en ontvangapparatuur.", 0],
["Behalve om rechtstreeks tussen twee zend-ontvangers met elkaar te communiceren, is D-star uitermate geschikt om ook via een D-star repeater of een D-star hotspot te communiceren.", 0],
["Een Repeater is een zend-ontvanger welke onbemand het ontvangen radiosignaal op een andere frequentie her-uitzendt.", 0],
["BBC Radio 1 richt zich vooral op de doelgroep 15 tot 29 jaar, en zendt vooral pop, elektronische, alternatieve en rock muziek uit.", 0],
["Een antenne-array is een samenstel van een aantal zend- of ontvangstantennes, om voor een bepaalde frequentie een optimale energieoverdracht in één of meer richtingen te bewerkstelligen.", 0],
["Momenteel zendt Boomerang de tekenfilm uit, geheel opnieuw ingesproken, maar met dezelfde stemacteurs.", 0],
["In het midden- en noorden van Schotland zendt STV uit, in Noord-Ierland zendt UTV uit.", 0],
["Dit onderdeel zend een schokgolf uit waarmee je zwakke muren kan openbreken.", 0],
["In 1917 stonden er al tijdelijke zend- en ontvangststations voor draadloze telegrafie op de lange golf op de hoogvlakte Malabar nabij Bandoeng op het Nederlands-Indische eiland Java, voor contact met het moederland.", 0],
["Deze zender zendt uit in het Engels en is gericht op de islam.", 0],
["Het kanaal zendt dagelijks uit vanuit zijn studio's op Stamford Bridge.", 0],
["Namelijk door zowel aan de zend- als aan de ontvangstzijde kathodestraalbuizen te gebruiken.", 0],
["In de daarop volgende jaren breidde hij zijn draadloze netwerk uit door wereldwijd diverse zend- en ontvangststations te bouwen.", 0],
["Tijdens een vuurgevecht met de Duitsers waren ze hun uitrusting, wapens en radio zend-ontvanger kwijt geraakt.", 0],
["Wanneer Big Brother wordt uitgezonden op Channel 4, zendt E4 veel extra programma's uit rond de serie.", 0],
["De Church of Scotland besluit hen te gaan sponsoren en zendt het echtpaar naar Chamba, een leprakolonie aan de voet van de Himalaya.", 0],
["De dieven schrikken en rennen weg en Salam pakt het geld en zendt een gedeelte naar zijn meester.", 0],
["Marinus Vader ontving inmiddels een zend-ontvanger via route Zwaantje.", 0],
["Helaas zendt geen 1 kanaal constant uit 70% van de tijd andere zaken.", 0],
["De zender zendt 24 uur per dag programma's uit.", 0],
["Aanschouw, Heer, de droefheid van Uw volk, en zend ons degene, die U zenden wil.", 0],
["Wanneer in februari 1799 nog geen antwoord uit Nederland is gekomen, zendt men een tweede verzoek, vergezeld van een bedrag van f 1100,--.", 0],
["Sindsdien zendt het radiostation 24 uur per dag, zeven dagen in de week uit.", 0],
["Korte tijd daarna zendt de hertog een korte brief waarin hij stelt dat Bredevoort bij de graafschap Zutphen hoort en aan de voorouders van Arnold in pand is gegeven.", 0],
["Midland FM is de eerste en oudste streekomroep van Nederland en zendt uit in de gemeenten Renswoude, Scherpenzeel, Veenendaal, Woudenberg.", 0],
["Zoals de meeste planetaire nevels zendt de halternevel zijn zichtbare licht voornamelijk in één enkele spectraallijn uit, 500,7 nm.", 0],
["Daarnaast zou hij voor allen de zend- en ontvangstapparatuur, de verrekijkers, de codekaarten, hun bewapening en hun privéspullen beheren.", 0],
["Verder zendt het netwerk nog uit via drie televisiekanalen die niet in Telefe’s beheer zijn.", 0],
["Het schip zendt signalen en bevelen uit naar de battle droids, droidekas en droid starfighters die in de buurt actief zijn.", 0],
["Sinds 12 december 2016 zendt Spike dagelijks uit van 21.05 tot 5.00 uur op het kanaal van Nickelodeon.", 0],
["In vergelijking met de Nederlandse versie zendt de zender niet 24 uur per dag uit, en dat terwijl het sinds 12 december 2016 in Nederland wel het geval is.", 0],
["Het schip zendt een S.O.S. uit en het eerste schot van de duikboot verbrijzelt het roer.", 0],
["In het budget van de zone voor 2017 wordt 620.000 euro geïnvesteerd in de aankoop van persoonlijke beschermingsmiddelen, 385.000 euro in de vernieuwing van zend- en oproepapparatuur, 2,5 miljoen euro in nieuw materieel en wagens 440.000 euro in opleidingen.", 0],
["Het betreft een massive MIMO-installatie van Huawei met meerdere kleine zend- en ontvangstantennes, geplaatst op het Leidseplein door T-Mobile.", 0],
["Het radiostation zendt van 5 's ochtends tot 4 uur 's middags en van 5 uur 's middags tot 10 uur 's avonds uit.", 0],
["Naast de reguliere programma's zendt Omroep Helmond ook regelmatig uit vanaf locatie, als er ergens in Helmond een bijzonder evenement is.", 0],
["In alle Wolf’s kan zend- en ontvangstapparatuur worden geplaatst.", 0],
["Echter tijdens de Tweede Wereldoorlog heeft men nog onvoldoende vertrouwen in de apparatuur en zendt men met vluchten nog twee duiven mee.", 0],
["Zend, de heilige taal van de Zoroastriërs zou van dit Sanzar afstammen.", 0],
["Dit biecht zij op aan haar verloofde Wamgans, waarop deze Sofrelli tijdens de bruiloft weg zendt.", 0],
# Synthetic data, close to failing evaluations for zend
["In dat boek, schrijft Jan het volgende: \"Hetgeen gij hoort, onthoud dat en zend het naar je broers.\"", 0],
["Zend zo duidelijke mogelijke instructies naar alle deelnemers!", 0],
["Ga er direct naartoe en zend hulp naar de getroffen zones!", 0],
["Val binnen als de inwoners om hulp vragen, neem het gebouw in, zend kolonisten naar het gebied!", 0],
["Val aan als de mensen om hulp roepen, neem het land in, zend redders naar het land!", 0],
["Vraag het even na en zend dan direct het resultaat door.", 0],
["Wanneer je bent aangekomen, zend je me dan direct een SMS?", 0],
["En Hij zei: \"Zend vele groeten naar alle nieuwe leden.\"", 0],
["Toen gaf ze de opdracht: \"Verzamel modern materiaal en zend het per direct naar onze partners\"", 0],
["Met die puntkomma erbij is hij veel sterker dan ik; zend hem alvast mijn felicitaties!", 0],
["Door die puntkomma is hij ook veel groter dan ik; zend hem een helm!", 0],
["Die antenne zendt zo'n zwak signaal dat je hem nauwelijks kan ontvangen", 0],
["Radio Scorpio zendt in FM op 106.0 MHz", 0],
["Die ster zendt ook Gamma straling de ruimte in, maar ik ben niet zeker als dat wel kan kloppen.", 0],
["Ondanks alles, zendt het toch een heel sterk signaal.", 0],
["In het nieuwe Testament, zendt God de engelen allemaal naar boven.", 0],
["In het Testament van Jonas, zendt God de aartsengel Michaël naar Abraham met de boodschap dat het einde nadert.", 0],
["God zendt zijn dochters uit.", 0],
["God zendt het meeste pakjes, op Sinterklaas na.", 0],
# With spelling mistake
["Ik zendt een pakje.", 1],
["Ik zendt je een pakje.", 1],
["Ik zendt u een heel mooie trui.", 1],
["Zendt ik u best morgen al de nieuwe catalogus?", 1],
["Waarom zendt ik je niet zelf voor die moeilijke opdracht?", 1],
["Wat zendt ik best naar mijn moeder voor haar verjaardag?", 1],
["Zendt ik die bestelling op donderdag op, en toch komt die pas op dinsdag aan!", 1],
["Je zend het toch nog vandaag op, hoop ik.", 1],
["Jij zend een hele grote doos naar oma.", 1],
["Zendt je dat straks uit?", 1],
["Zendt je deze bestelling nog even naar de klant?", 1],
["Zendt je ook nog die laatste versie even door?", 1],
["Zendt je dat vanavond laat ook uit?", 1],
["Waarom zendt je dat niet via onze koerier?", 1],
["Zendt jij echt die fiets via de post?", 1],
["Welke baas zend je nu helemaal naar London voor 1 klant?", 1],
["Hoe laat zend u de de nieuwe versie door?", 1],
["Zend u dit volgende week al uit?", 1],
# With spelling mistake; from nl.wikipedia (corrected in many places)
["Een gebed van Apollonius van Tyana uit ongeveer het jaar 23 AD: \"O, God van de Zon, zendt me zover rond de wereld als goed is voor mij en jou, en dat ik goede mensen mag ontmoeten, maar nooit de slechte leer kennen, noch zij mij.", 1],
["En zendt daarna een evaluatieteam in als iedereen is afgekoeld.", 1],
["Sinds 2013 zend ook 2BE de serie uit.", 1],
["In december 2010 zend televisie- en internet aanbieder Ziggo een tweetal nieuwe 2 Meter Sessies uitzendingen uit op haar digitale televisiekanaal.", 1],
["'s Morgens zend het kanaal de programmering van 24 h uit, met nieuws en achtergronden.", 1],
["Sinds 15 december 2008 zend de zender uit tussen 6 en 20.15 uur op hetzelfde kanaal als Comedy Central Duitsland, en dit ook via de satelliet.", 1],
["Hierbij zend de gebruiker alleen mentale energie naar zijn opponent, die daar wel door wordt overheerst en niet meer uit eigen wil kan handelen zolang deze Jutsu bezig is.", 1],
["Sinds 2017 zend Veronica kwalificatiewedstrijden van het Nederlands vrouwenvoetbalelftal uit.", 1],
["Zie, Ik zendt u de profeet Elia, voordat de grote en geduchte dag van Jahweh komt.", 1],
["BBC Radio 1 richt zich vooral op de doelgroep 15 tot 29 jaar, en zend vooral pop, elektronische, alternatieve en rock muziek uit.", 1],
["Momenteel zend Boomerang de tekenfilm uit, geheel opnieuw ingesproken, maar met dezelfde stemacteurs.", 1],
["In het midden- en noorden van Schotland zend STV uit, in Noord-Ierland zend UTV uit.", 1],
["Dit onderdeel zendt een schokgolf uit waarmee je zwakke muren kan openbreken.", 1],
["Deze zender zend uit in het Engels en is gericht op de islam.", 1],
["Het kanaal zend dagelijks uit vanuit zijn studio's op Stamford Bridge.", 1],
["Wanneer Big Brother wordt uitgezonden op Channel 4, zend E4 veel extra programma's uit rond de serie.", 1],
["De Church of Scotland besluit hen te gaan sponsoren en zend het echtpaar naar Chamba, een leprakolonie aan de voet van de Himalaya.", 1],
["De dieven schrikken en rennen weg en Salam pakt het geld en zend een gedeelte naar zijn meester.", 1],
["Helaas zend geen 1 kanaal constant uit 70% van de tijd andere zaken.", 1],
["De zender zend 24 uur per dag programma's uit.", 1],
["Aanschouw, Heer, de droefheid van Uw volk, en zendt ons degene, die U zenden wil.", 1],
["Wanneer in februari 1799 nog geen antwoord uit Nederland is gekomen, zend men een tweede verzoek, vergezeld van een bedrag van f 1100,--.", 1],
["Sindsdien zend het radiostation 24 uur per dag, zeven dagen in de week uit.", 1],
["Korte tijd daarna zend de hertog een korte brief waarin hij stelt dat Bredevoort bij de graafschap Zutphen hoort en aan de voorouders van Arnold in pand is gegeven.", 1],
["Midland FM is de eerste en oudste streekomroep van Nederland en zend uit in de gemeenten Renswoude, Scherpenzeel, Veenendaal, Woudenberg.", 1],
["Zoals de meeste planetaire nevels zend de halternevel zijn zichtbare licht voornamelijk in één enkele spectraallijn uit, 500,7 nm.", 1],
["Verder zend het netwerk nog uit via drie televisiekanalen die niet in Telefe’s beheer zijn.", 1],
["Het schip zend signalen en bevelen uit naar de battle droids, droidekas en droid starfighters die in de buurt actief zijn.", 1],
["Sinds 12 december 2016 zend Spike dagelijks uit van 21.05 tot 5.00 uur op het kanaal van Nickelodeon.", 1],
["In vergelijking met de Nederlandse versie zend de zender niet 24 uur per dag uit, en dat terwijl het sinds 12 december 2016 in Nederland wel het geval is.", 1],
["Het schip zend een S.O.S. uit en het eerste schot van de duikboot verbrijzelt het roer.", 1],
["Het betreft een massive MIMO-installatie van Huawei met meerdere kleine zend- en ontvangstantennes, geplaatst op het Leidseplein door T-Mobile.", 1],
["Het radiostation zend van 5 's ochtends tot 4 uur 's middags en van 5 uur 's middags tot 10 uur 's avonds uit.", 1],
["Naast de reguliere programma's zend Omroep Helmond ook regelmatig uit vanaf locatie, als er ergens in Helmond een bijzonder evenement is.", 1],
["Echter tijdens de Tweede Wereldoorlog heeft men nog onvoldoende vertrouwen in de apparatuur en zend men met vluchten nog twee duiven mee.", 1],
["Dit biecht zij op aan haar verloofde Wamgans, waarop deze Sofrelli tijdens de bruiloft weg zend.", 1],
# Synthetic data, close to failing evaluations for zend
["In dat boek, schrijft Jan het volgende: \"Hetgeen gij hoort, onthoud dat en zendt het naar je broers.\"", 1],
["Zendt zo duidelijke mogelijke instructies naar alle deelnemers!", 1],
["Ga er direct naartoe en zendt hulp naar de getroffen zones!", 1],
["Val binnen als de inwoners om hulp vragen, neem het gebouw in, zendt kolonisten naar het gebied!", 1],
["Val aan als de mensen om hulp roepen, neem het land in, zendt redders naar het land!", 1],
["Vraag het even na en zendt dan direct het resultaat door.", 1],
["Wanneer je bent aangekomen, zendt je me dan direct een SMS?", 1],
["En Hij zei: \"Zendt vele groeten naar alle nieuwe leden.\"", 1],
["Toen gaf ze de opdracht: \"Verzamel modern materiaal en zendt het per direct naar onze partners\"", 1],
["Met die puntkomma erbij is hij veel sterker dan ik; zendt hem alvast mijn felicitaties!", 1],
["Door die puntkomma is hij ook veel groter dan ik; zendt hem een helm!", 1],
["Die antenne zend zo'n zwak signaal dat je hem nauwelijks kan ontvangen", 1],
["Radio Scorpio zend in FM op 106.0 MHz", 1],
["Die ster zend ook Gamma straling de ruimte in, maar ik ben niet zeker als dat wel kan kloppen.", 1],
["Ondanks alles, zend het toch een heel sterk signaal.", 1],
["In het nieuwe Testament, zend God de engelen allemaal naar boven.", 1],
["In het Testament van Jonas, zend God de aartsengel Michaël naar Abraham met de boodschap dat het einde nadert.", 1],
["God zend zijn dochters uit.", 1],
["God zend het meeste pakjes, op Sinterklaas na.", 1],
# worden
# Correct
["Ik word is zonder t", 0],
["Ik word warm.", 0],
["Ik word enthousiast.", 0],
["Ik word eigenaar van een nieuwe kat.", 0],
["Hierdoor word ik ook helemaal verrast.", 0],
["Hoe word ik eigenlijk geholpen?", 0],
["Waarom word ik van het kastje naar de muur gestuurd?", 0],
["Hoeveel verder word ik hierdoor afgezet?", 0],
# With spelling mistake
["Ik wordt is zonder t", 1],
["Ik wordt warm.", 1],
["Ik wordt enthousiast.", 1],
["Ik wordt eigenaar van een nieuwe kat.", 1],
["Hierdoor wordt ik ook helemaal verrast.", 1],
["Hoe wordt ik eigenlijk geholpen?", 1],
["Waarom wordt ik van het kastje naar de muur gestuurd?", 1],
["Hoeveel verder wordt ik hierdoor afgezet?", 1],
# Correct
["Jij wordt is met t", 0],