stanford-crfm · raileymontalan · Jul 1, 2024 · Jul 18, 2024 · Aug 16, 2024 · Aug 16, 2024
diff --git a/run_eval.sh b/run_eval.sh
@@ -0,0 +1,20 @@
+export CUDA_VISIBLE_DEVICES=0
+
+export HF_HOME=/mnt/fs-arf-01/railey4/cache
+export HF_DATASETS_CACHE=/mnt/fs-arf-01/railey4/cache
+export HF_TOKEN=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
+
+pip install -e .
+
+helm-run --suite zero-shot \
+    --max-eval-instances 1 \
+    --model databricks/dolly-v2-3b \
+    --conf-paths src/helm/benchmark/presentation/run_entries_bhasa_zero_shot.conf 
+
+# helm-run --suite few-shot \
+#     --max-eval-instances 1 \
+#     --model databricks/dolly-v2-3b \
+#     --conf-paths src/helm/benchmark/presentation/run_entries_bhasa.conf 
+
+helm-summarize --suite zero-shot
+# helm-summarize --suite few-shot
diff --git a/src/helm/benchmark/presentation/run_entries_bhasa.conf b/src/helm/benchmark/presentation/run_entries_bhasa.conf
@@ -56,17 +56,17 @@ entries: [
 
     ##   D. Linguistic Diagnostics (LINDSEA)
 
-    ###  1. Syntax: Minimal Pairs
+    ###  1. Syntax: LINDSEA Minimal Pairs
     ###  Use this to run the minimal pairs evaluation as a MCQ task
     {description: "lindsea_syntax_minimal_pairs:model=text,method=mcq,language=id", priority: 1},
 
     ###  Use this instead of the above in order to run the minimal pairs evaluation using logprobs
     # {description: "lindsea_syntax_minimal_pairs:model=text,method=probs,language=id" priority: 1},
 
-    ###  2. Pragmatics: Pragmatic Reasoning (single sentence)
-    {description: "lindsea_pragmatics_pragmatic_reasoning_single:model=text,language=id", priority: 1},
+    ###  2. Pragmatics: LINDSEA Presuppositions
+    {description: "lindsea_pragmatics_presuppositions:model=text,subset=all,language=id", priority: 1},
 
-    ###  3. Pragmatics: Pragmatic Reasoning (sentence pair)
-    {description: "lindsea_pragmatics_pragmatic_reasoning_pair:model=text,language=id", priority: 1},
+    ###  3. Pragmatics: LINDSEA Scalar Implicatures
+    {description: "lindsea_pragmatics_scalar_implicatures:model=text,subset=all,language=id", priority: 1},
 
-]
+]
diff --git a/src/helm/benchmark/presentation/run_entries_bhasa_zero_shot.conf b/src/helm/benchmark/presentation/run_entries_bhasa_zero_shot.conf
@@ -56,17 +56,17 @@ entries: [
 
     ##   D. Linguistic Diagnostics (LINDSEA)
 
-    ###  1. Syntax: Minimal Pairs
+    ###  1. Syntax: LINDSEA Minimal Pairs
     ###  Use this to run the minimal pairs evaluation as a MCQ task
     {description: "lindsea_syntax_minimal_pairs:model=text,max_train_instances=0,method=mcq,language=id", priority: 1},
 
     ###  Use this instead of the above in order to run the minimal pairs evaluation using logprobs
     # {description: "lindsea_syntax_minimal_pairs:model=text,max_train_instances=0,method=probs,language=id" priority: 1},
 
-    ###  2. Pragmatics: Pragmatic Reasoning (single sentence)
-    {description: "lindsea_pragmatics_pragmatic_reasoning_single:model=text,max_train_instances=0,language=id", priority: 1},
+    ###  2. Pragmatics: LINDSEA Presuppositions
+    {description: "lindsea_pragmatics_presuppositions:model=text,max_train_instances=0,subset=all,language=id", priority: 1},
 
-    ###  3. Pragmatics: Pragmatic Reasoning (sentence pair)
-    {description: "lindsea_pragmatics_pragmatic_reasoning_pair:model=text,max_train_instances=0,language=id", priority: 1},
+    ###  3. Pragmatics: LINDSEA Scalar Implicatures
+    {description: "lindsea_pragmatics_scalar_implicatures:model=text,max_train_instances=0,subset=all,language=id", priority: 1},
 
-]
+]
diff --git a/src/helm/benchmark/run_specs/bhasa_run_specs.py b/src/helm/benchmark/run_specs/bhasa_run_specs.py
@@ -582,10 +582,10 @@ def get_lindsea_syntax_minimal_pairs_spec(language: str = "id", method: str = "m
     )
 
 
-# 2.1. Pragmatics: LINDSEA Pragmatic Reasoning (single sentence)
-@run_spec_function("lindsea_pragmatics_pragmatic_reasoning_single")
-def get_lindsea_pragmatics_pragmatic_reasoning_single_spec(language="id") -> RunSpec:
-    name = f"lindsea_pragmatics_pragmatic_reasoning_single_{language}"
+# 2.1. Pragmatics: LINDSEA Presuppositions
+@run_spec_function("lindsea_pragmatics_presuppositions")
+def get_lindsea_pragmatics_presuppositions_spec(language: str = "id", subset: str = "all") -> RunSpec:
+    name = f"lindsea_pragmatics_presuppositions_{subset}_{language}"
 
     adapter_spec = get_generation_adapter_spec(
         output_noun=LINDSEA_OUTPUT_NOUNS[language],
@@ -595,9 +595,10 @@ def get_lindsea_pragmatics_pragmatic_reasoning_single_spec(language="id") -> Run
     )
 
     scenario_spec = ScenarioSpec(
-        class_name="helm.benchmark.scenarios.bhasa_scenario.LINDSEAPragmaticsPragmaticReasoningSingleScenario",
+        class_name="helm.benchmark.scenarios.bhasa_scenario.LINDSEAPragmaticsPresuppositionsScenario",
         args={
             "language": language,
+            "subset": subset,
         },
     )
 
@@ -606,14 +607,14 @@ def get_lindsea_pragmatics_pragmatic_reasoning_single_spec(language="id") -> Run
         scenario_spec=scenario_spec,
         adapter_spec=adapter_spec,
         metric_specs=get_exact_match_metric_specs(),
-        groups=["bhasa_linguistic", f"lindsea_pragmatics_pragmatic_reasoning_single_{language}"],
+        groups=["bhasa_linguistic", f"lindsea_pragmatics_presuppositions_{subset}_{language}"],
     )
 
 
-# 2.2. Pragmatics: LINDSEA Pragmatic Reasoning (sentence pair)
-@run_spec_function("lindsea_pragmatics_pragmatic_reasoning_pair")
-def get_lindsea_pragmatics_pragmatic_reasoning_pair_spec(language="id") -> RunSpec:
-    name = f"lindsea_pragmatics_pragmatic_reasoning_pair_{language}"
+# 2.2. Pragmatics: LINDSEA Scalar Implicatures
+@run_spec_function("lindsea_pragmatics_scalar_implicatures")
+def get_lindsea_pragmatics_scalar_implicatures_spec(language: str = "id", subset: str = "all") -> RunSpec:
+    name = f"lindsea_pragmatics_scalar_implicatures_{subset}_{language}"
 
     adapter_spec = get_generation_adapter_spec(
         output_noun=LINDSEA_OUTPUT_NOUNS[language],
@@ -623,9 +624,10 @@ def get_lindsea_pragmatics_pragmatic_reasoning_pair_spec(language="id") -> RunSp
     )
 
     scenario_spec = ScenarioSpec(
-        class_name="helm.benchmark.scenarios.bhasa_scenario.LINDSEAPragmaticsPragmaticReasoningPairScenario",
+        class_name="helm.benchmark.scenarios.bhasa_scenario.LINDSEAPragmaticsScalarImplicaturesScenario",
         args={
             "language": language,
+            "subset": subset,
         },
     )
 
@@ -634,5 +636,5 @@ def get_lindsea_pragmatics_pragmatic_reasoning_pair_spec(language="id") -> RunSp
         scenario_spec=scenario_spec,
         adapter_spec=adapter_spec,
         metric_specs=get_exact_match_metric_specs(),
-        groups=["bhasa_linguistic", f"lindsea_pragmatics_pragmatic_reasoning_pair_{language}"],
+        groups=["bhasa_linguistic", f"lindsea_pragmatics_scalar_implicatures_{subset}_{language}"],
     )