hppRC
diff --git a/‎README.md‎
Lines changed: 35 additions & 0 deletions b/‎README.md‎
Lines changed: 35 additions & 0 deletions
diff --git a/‎scripts/10/0.sh‎
Lines changed: 18 additions & 8 deletions b/‎scripts/10/0.sh‎
Lines changed: 18 additions & 8 deletions
diff --git a/‎scripts/10/1.sh‎
Lines changed: 18 additions & 8 deletions b/‎scripts/10/1.sh‎
Lines changed: 18 additions & 8 deletions
diff --git a/‎scripts/10/2.sh‎
Lines changed: 20 additions & 8 deletions b/‎scripts/10/2.sh‎
Lines changed: 20 additions & 8 deletions
diff --git a/‎scripts/10/3.sh‎
Lines changed: 18 additions & 8 deletions b/‎scripts/10/3.sh‎
Lines changed: 18 additions & 8 deletions
diff --git a/‎scripts/10/prev/2023-03-10/0.sh‎
Lines changed: 30 additions & 0 deletions b/‎scripts/10/prev/2023-03-10/0.sh‎
Lines changed: 30 additions & 0 deletions
diff --git a/‎scripts/10/prev/2023-03-10/1.sh‎
Lines changed: 30 additions & 0 deletions b/‎scripts/10/prev/2023-03-10/1.sh‎
Lines changed: 30 additions & 0 deletions
diff --git a/‎scripts/10/prev/2023-03-10/2.sh‎
Lines changed: 33 additions & 0 deletions b/‎scripts/10/prev/2023-03-10/2.sh‎
Lines changed: 33 additions & 0 deletions
diff --git a/‎scripts/10/prev/2023-03-10/3.sh‎
Lines changed: 30 additions & 0 deletions b/‎scripts/10/prev/2023-03-10/3.sh‎
Lines changed: 30 additions & 0 deletions
diff --git a/‎scripts/10/prev/2023-03-11/0.sh‎
Lines changed: 25 additions & 0 deletions b/‎scripts/10/prev/2023-03-11/0.sh‎
Lines changed: 25 additions & 0 deletions
@@ -3,3 +3,38 @@
 poetry install
 <!-- poetry run pip install --upgrade --force-reinstall --no-deps "apache-beam[gcp]" "multiprocess==0.70.14" -->
 poetry run pip install --upgrade --force-reinstall --no-deps "apache-beam[gcp]" "multiprocess==0.70.14" "dill==0.3.1.1"
+
+
+
+| base models                                                                                                               | batch size |  lr   | JSICK (val) | JSICK (test) | JSTS (train) | JSTS (val) |
+| ------------------------------------------------------------------------------------------------------------------------- | :--------: | :---: | :---------: | :----------: | :----------: | :--------: |
+| [cl-tohoku/bert-base-japanese-v2](https://huggingface.co/cl-tohoku/bert-base-japanese-v2)                                 |            |       |             |              |              |            |
+| [cl-tohoku/bert-base-japanese-char-v2](https://huggingface.co/cl-tohoku/bert-base-japanese-char-v2)                       |            |       |             |              |              |            |
+| [cl-tohoku/bert-base-japanese](https://huggingface.co/cl-tohoku/bert-base-japanese)                                       |            |       |             |              |              |            |
+| [cl-tohoku/bert-base-japanese-whole-word-masking](https://huggingface.co/cl-tohoku/bert-base-japanese-whole-word-masking) |            |       |             |              |              |            |
+| [cl-tohoku/bert-base-japanese-char](https://huggingface.co/cl-tohoku/bert-base-japanese-char)                             |            |       |             |              |              |            |
+| [ku-nlp/roberta-base-japanese-char-wwm](https://huggingface.co/ku-nlp/roberta-base-japanese-char-wwm)                     |            |       |             |              |              |            |
+| [studio-ousia/luke-japanese-base-lite](https://huggingface.co/studio-ousia/luke-japanese-base-lite)                       |            |       |             |              |              |            |
+|                                                                                                                           |            |       |             |              |              |            |
+| [ku-nlp/deberta-v2-base-japanese](https://huggingface.co/ku-nlp/deberta-v2-base-japanese)                                 |            |       |             |              |              |            |
+| [nlp-waseda/roberta-base-japanese](https://huggingface.co/nlp-waseda/roberta-base-japanese)                               |            |       |             |              |              |            |
+| [megagonlabs/roberta-long-japanese](https://huggingface.co/megagonlabs/roberta-long-japanese)                             |            |       |             |              |              |            |
+|                                                                                                                           |            |       |             |              |              |            |
+| [bert-base-multilingual-cased](https://huggingface.co/bert-base-multilingual-cased)                                       |            |       |             |              |              |            |
+| [xlm-roberta-base](https://huggingface.co/xlm-roberta-base)                                                               |            |       |             |              |              |            |
+| [microsoft/mdeberta-v3-base](https://huggingface.co/microsoft/mdeberta-v3-base)                                           |            |       |             |              |              |            |
+| [studio-ousia/mluke-base-lite](https://huggingface.co/studio-ousia/mluke-base-lite)                                       |            |       |             |              |              |            |
+
+
+
+| large models                                                                                            | batch size |  lr   | JSICK (val) | JSICK (test) | JSTS (train) | JSTS (val) |
+| ------------------------------------------------------------------------------------------------------- | :--------: | :---: | :---------: | :----------: | :----------: | :--------: |
+| [cl-tohoku/bert-large-japanese](https://huggingface.co/cl-tohoku/bert-large-japanese)                   |            |       |             |              |              |            |
+| [ku-nlp/roberta-large-japanese-char-wwm](https://huggingface.co/ku-nlp/roberta-large-japanese-char-wwm) |            |       |             |              |              |            |
+| [studio-ousia/luke-japanese-large-lite](https://huggingface.co/studio-ousia/luke-japanese-large-lite)   |            |       |             |              |              |            |
+|                                                                                                         |            |       |             |              |              |            |
+| [nlp-waseda/roberta-large-japanese](https://huggingface.co/nlp-waseda/roberta-large-japanese)           |            |       |             |              |              |            |
+| [ku-nlp/deberta-v2-large-japanese](https://huggingface.co/ku-nlp/deberta-v2-large-japanese)             |            |       |             |              |              |            |
+|                                                                                                         |            |       |             |              |              |            |
+| [xlm-roberta-large](https://huggingface.co/xlm-roberta-large)                                           |            |       |             |              |              |            |
+| [studio-ousia/mluke-large-lite](https://huggingface.co/studio-ousia/mluke-large-lite)                   |            |       |             |              |              |            |
@@ -1,15 +1,25 @@
 device="cuda:0"
-model_name="cl-tohoku/bert-large-japanese"
 
 for i in 0 1 2; do
-    for batch_size in 32 64 128 256 512; do
+    for model_name in studio-ousia/luke-japanese-large-lite studio-ousia/luke-japanese-base-lite; do
         for lr in 1e-5 3e-5 5e-5; do
-            poetry run python src/train_unsup.py \
-                --dataset_name wiki40b \
-                --model_name $model_name \
-                --batch_size $batch_size \
-                --lr $lr \
-                --device $device
+            for batch_size in 512; do
+                poetry run python src/train_sup.py \
+                    --dataset_name jsnli+nu-snli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --gradient_checkpointing \
+                    --device $device
+            done
+            for batch_size in 256 128 64; do
+                poetry run python src/train_sup.py \
+                    --dataset_name jsnli+nu-snli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --device $device
+            done
         done
     done
 done
@@ -1,15 +1,25 @@
 device="cuda:1"
-model_name="studio-ousia/luke-japanese-large-lite"
 
 for i in 0 1 2; do
-    for batch_size in 32 64 128 256 512; do
+    for model_name in cl-tohoku/bert-large-japanese ku-nlp/roberta-large-japanese-char-wwm; do
         for lr in 1e-5 3e-5 5e-5; do
-            poetry run python src/train_unsup.py \
-                --dataset_name wiki40b \
-                --model_name $model_name \
-                --batch_size $batch_size \
-                --lr $lr \
-                --device $device
+            for batch_size in 512; do
+                poetry run python src/train_sup.py \
+                    --dataset_name jsnli+nu-snli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --gradient_checkpointing \
+                    --device $device
+            done
+            for batch_size in 256 128 64; do
+                poetry run python src/train_sup.py \
+                    --dataset_name jsnli+nu-snli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --device $device
+            done
         done
     done
 done
@@ -1,15 +1,27 @@
 device="cuda:2"
-model_name="cl-tohoku/bert-base-japanese-v2"
 
 for i in 0 1 2; do
-    for batch_size in 32 64 128 256 512; do
+    for model_name in nlp-waseda/roberta-large-japanese ku-nlp/deberta-v2-large-japanese; do
         for lr in 1e-5 3e-5 5e-5; do
-            poetry run python src/train_unsup.py \
-                --dataset_name wiki40b \
-                --model_name $model_name \
-                --batch_size $batch_size \
-                --lr $lr \
-                --device $device
+            for batch_size in 512; do
+                poetry run python src/train_sup.py \
+                    --dataset_name jsnli+nu-snli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --use_jumanpp \
+                    --gradient_checkpointing \
+                    --device $device
+            done
+            for batch_size in 256 128 64; do
+                poetry run python src/train_sup.py \
+                    --dataset_name jsnli+nu-snli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --use_jumanpp \
+                    --device $device
+            done
         done
     done
 done
@@ -1,15 +1,25 @@
 device="cuda:3"
-model_name="ku-nlp/deberta-v2-large-japanese"
 
 for i in 0 1 2; do
-    for batch_size in 32 64 128 256 512; do
+    for model_name in xlm-roberta-large studio-ousia/mluke-large-lite; do
         for lr in 1e-5 3e-5 5e-5; do
-            poetry run python src/train_unsup.py \
-                --dataset_name wiki40b \
-                --model_name $model_name \
-                --batch_size $batch_size \
-                --lr $lr \
-                --device $device
+            for batch_size in 512; do
+                poetry run python src/train_sup.py \
+                    --dataset_name jsnli+nu-snli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --gradient_checkpointing \
+                    --device $device
+            done
+            for batch_size in 256 128 64; do
+                poetry run python src/train_sup.py \
+                    --dataset_name jsnli+nu-snli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --device $device
+            done
         done
     done
 done
@@ -0,0 +1,30 @@
+device="cuda:0"
+
+for i in 0 1 2; do
+    for model_name in cl-tohoku/bert-base-japanese-v2 cl-tohoku/bert-base-japanese-char-v2 cl-tohoku/bert-base-japanese cl-tohoku/bert-base-japanese-whole-word-masking; do
+        for batch_size in 64 128 256 512; do
+            for lr in 1e-5 3e-5 5e-5; do
+                poetry run python src/train_sup.py \
+                    --dataset_name nu-snli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --device $device
+
+                poetry run python src/train_sup.py \
+                    --dataset_name nu-mnli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --device $device
+
+                poetry run python src/train_sup.py \
+                    --dataset_name nu-snli+mnli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --device $device
+            done
+        done
+    done
+done
@@ -0,0 +1,30 @@
+device="cuda:1"
+
+for i in 0 1 2; do
+    for model_name in cl-tohoku/bert-large-japanese ku-nlp/roberta-large-japanese-char-wwm; do
+        for batch_size in 64 128 256 512; do
+            for lr in 1e-5 3e-5 5e-5; do
+                poetry run python src/train_sup.py \
+                    --dataset_name nu-snli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --device $device
+
+                poetry run python src/train_sup.py \
+                    --dataset_name nu-mnli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --device $device
+
+                poetry run python src/train_sup.py \
+                    --dataset_name nu-snli+mnli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --device $device
+            done
+        done
+    done
+done
@@ -0,0 +1,33 @@
+device="cuda:2"
+
+for i in 0 1 2; do
+    for model_name in nlp-waseda/roberta-large-japanese ku-nlp/deberta-v2-large-japanese; do
+        for batch_size in 64 128 256 512; do
+            for lr in 1e-5 3e-5 5e-5; do
+                poetry run python src/train_sup.py \
+                    --dataset_name nu-snli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --use_jumanpp \
+                    --device $device
+
+                poetry run python src/train_sup.py \
+                    --dataset_name nu-mnli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --use_jumanpp \
+                    --device $device
+
+                poetry run python src/train_sup.py \
+                    --dataset_name nu-snli+mnli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --use_jumanpp \
+                    --device $device
+            done
+        done
+    done
+done
@@ -0,0 +1,30 @@
+device="cuda:3"
+
+for i in 0 1 2; do
+    for model_name in xlm-roberta-large studio-ousia/mluke-large-lite; do
+        for batch_size in 64 128 256 512; do
+            for lr in 1e-5 3e-5 5e-5; do
+                poetry run python src/train_sup.py \
+                    --dataset_name nu-snli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --device $device
+
+                poetry run python src/train_sup.py \
+                    --dataset_name nu-mnli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --device $device
+
+                poetry run python src/train_sup.py \
+                    --dataset_name nu-snli+mnli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --device $device
+            done
+        done
+    done
+done
@@ -0,0 +1,25 @@
+device="cuda:0"
+
+for batch_size in 1024; do
+    for i in 0 1; do
+        for model_name in cl-tohoku/bert-large-japanese ku-nlp/roberta-large-japanese-char-wwm; do
+            for lr in 1e-5 3e-5 5e-5; do
+                poetry run python src/train_sup.py \
+                    --dataset_name nu-snli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --gradient_checkpointing \
+                    --device $device
+
+                poetry run python src/train_sup.py \
+                    --dataset_name nu-snli+mnli \
+                    --model_name $model_name \
+                    --batch_size $batch_size \
+                    --lr $lr \
+                    --gradient_checkpointing \
+                    --device $device
+            done
+        done
+    done
+done