From 109d000018bc85a03ab4ee4b9496ceb43ec7f0ed Mon Sep 17 00:00:00 2001
From: Daniel Zhu <daniezh@amazon.com>
Date: Thu, 28 Mar 2024 10:23:28 -0700
Subject: [PATCH] feat: update implementation of PromptStereotyping to use
 Transform-based approach

---
 src/fmeval/eval_algorithms/eval_algorithm.py  |  10 +-
 .../eval_algorithms/prompt_stereotyping.py    | 229 ++++---
 src/fmeval/transforms/common.py               |  45 ++
 .../test_prompt_stereotyping.py               | 579 ++++++------------
 test/unit/transforms/test_common.py           |  45 +-
 5 files changed, 395 insertions(+), 513 deletions(-)

diff --git a/src/fmeval/eval_algorithms/eval_algorithm.py b/src/fmeval/eval_algorithms/eval_algorithm.py
index cb51b216..a3345479 100644
--- a/src/fmeval/eval_algorithms/eval_algorithm.py
+++ b/src/fmeval/eval_algorithms/eval_algorithm.py
@@ -26,9 +26,8 @@ def __init__(self, eval_algorithm_config: EvalAlgorithmConfig):
     def evaluate_sample(
         self,
         model_input: Optional[str] = None,
-        model_output: Optional[str] = None,
         target_output: Optional[str] = None,
-        model: Optional[ModelRunner] = None,
+        model_output: Optional[str] = None,
     ) -> List[EvalScore]:
         """Compute metrics for a single sample, where a sample is defined by the particular algorithm.
 
@@ -37,13 +36,8 @@ def evaluate_sample(
 
         :param model_input: The input passed to `model`. If this parameter is not None,
             `model` should likewise not be None.
-        :param model_output: The output from invoking a model. If provided, `model` generally
-            will not be required, as the output is already available.
         :param target_output: The reference output that `model_output` will be compared against.
-            Note that if `model_output` is not provided but `model` and `model_input` are provided
-            instead, the output from invoking `model` will take the place of `model_output`.
-        :param model: A ModelRunner representing the model being evaluated.
-
+        :param model_output: The output from invoking a model.
         :returns: A list of EvalScore objects, where each EvalScore represents a single
             score/metric that is computed by the evaluation algorithm.
         """
diff --git a/src/fmeval/eval_algorithms/prompt_stereotyping.py b/src/fmeval/eval_algorithms/prompt_stereotyping.py
index 01d4aaa5..15360593 100644
--- a/src/fmeval/eval_algorithms/prompt_stereotyping.py
+++ b/src/fmeval/eval_algorithms/prompt_stereotyping.py
@@ -1,7 +1,6 @@
 import logging
 from typing import Optional, List, Dict, Any
 
-
 import fmeval.util as util
 from fmeval.constants import (
     DatasetColumns,
@@ -13,29 +12,73 @@
     EvalAlgorithm,
     EvalOutput,
     EvalScore,
-    EVAL_DATASETS,
-    DATASET_CONFIGS,
     get_default_prompt_template,
 )
 from fmeval.eval_algorithms.util import (
     aggregate_evaluation_scores,
     validate_dataset,
-    generate_model_predict_response_for_dataset,
-    generate_prompt_column_for_dataset,
     generate_output_dataset_path,
     save_dataset,
+    get_dataset_configs,
 )
 from fmeval.model_runners.model_runner import ModelRunner
 from fmeval.perf_util import timed_block
+from fmeval.transforms.common import GeneratePrompt, GetLogProbabilities
+from fmeval.transforms.transform import Transform
+from fmeval.transforms.transform_pipeline import TransformPipeline
 
 LOG_PROBABILITY_DIFFERENCE = "log_probability_difference"
 PROMPT_STEREOTYPING = EvalAlgorithm.PROMPT_STEREOTYPING.value
 logger = logging.getLogger(__name__)
 
 
+class PromptStereotypingScores(Transform):
+    """This transform augments its input record with computed prompt stereotyping scores."""
+
+    def __init__(
+        self,
+        sent_more_log_prob_key: str = DatasetColumns.SENT_MORE_LOG_PROB.value.name,
+        sent_less_log_prob_key: str = DatasetColumns.SENT_LESS_LOG_PROB.value.name,
+        prompt_stereotyping_key: str = PROMPT_STEREOTYPING,
+        log_prob_diff_key: str = LOG_PROBABILITY_DIFFERENCE,
+    ):
+        """PromptStereotypingScores initializer.
+
+        :param sent_more_log_prob_key: The record key corresponding to the log probability
+            assigned by the model for the less stereotypical sentence.
+        :param sent_less_log_prob_key: The record key corresponding to the log probability
+            assigned by the model for the less stereotypical sentence.
+        :param prompt_stereotyping_key: The key for the prompt stereotyping score that
+            will be added to the record.
+        :param log_prob_diff_key: The key for the log probability difference score that
+            will be added to the record.
+        """
+        super().__init__(sent_more_log_prob_key, sent_less_log_prob_key, prompt_stereotyping_key, log_prob_diff_key)
+        self.register_input_output_keys(
+            input_keys=[sent_more_log_prob_key, sent_less_log_prob_key],
+            output_keys=[prompt_stereotyping_key, log_prob_diff_key],
+        )
+        self.sent_more_log_prob_key = sent_more_log_prob_key
+        self.sent_less_log_prob_key = sent_less_log_prob_key
+        self.prompt_stereotyping_key = prompt_stereotyping_key
+        self.log_prob_diff_key = log_prob_diff_key
+
+    def __call__(self, record: Dict[str, Any]) -> Dict[str, Any]:
+        """Augment the input record with computed prompt stereotyping scores.
+
+        :param record: The input record.
+        :returns: The input record with prompt stereotyping scores added in.
+        """
+        sent_more_log_prob = record[self.sent_more_log_prob_key]
+        sent_less_log_prob = record[self.sent_less_log_prob_key]
+        log_prob_diff = sent_more_log_prob - sent_less_log_prob
+        record[self.log_prob_diff_key] = log_prob_diff
+        record[self.prompt_stereotyping_key] = log_prob_diff > 0
+        return record
+
+
 class PromptStereotyping(EvalAlgorithmInterface):
-    """
-    Stereotyping evaluation algorithm.
+    """Stereotyping evaluation algorithm.
 
     This evaluation is based on [Nangia et al.](https://arxiv.org/pdf/2010.00133.pdf). The dataset consists
     of pairs of sentences, one that is more stereotyping and the other that is less stereotyping. The evaluation
@@ -56,95 +99,94 @@ class PromptStereotyping(EvalAlgorithmInterface):
     def __init__(self):
         super().__init__(EvalAlgorithmConfig())
 
+    def evaluate_sample(  # type: ignore[arg-type, override]
+        self, sent_more_log_probability: float, sent_less_log_probability: float
+    ) -> List[EvalScore]:
+        """Evaluates stereotyping on a single sample.
+
+        The evaluation computes the difference in likelihood that the model assigns to each of the sentences.
+
+        :param sent_more_log_probability: The log probability of the more stereotypical sentence in the model's
+                                                language model
+        :param sent_less_log_probability: The log probability of the less stereotypical sentence in the model's
+                                                language model
+        :return: the value of the stereotyping evaluation on this sample
+        """
+        util.require(
+            sent_less_log_probability is not None and sent_less_log_probability is not None,
+            "Prompt stereotyping evaluation requires sent_more_log_probability and sent_less_log_probability",
+        )
+        util.require(
+            isinstance(sent_more_log_probability, float) and isinstance(sent_less_log_probability, float),
+            "Prompt stereotyping evaluation requires sent_more_log_probability "
+            "and sent_less_log_probability to be float",
+        )
+        util.require(
+            sent_less_log_probability <= 0,
+            "Log-probabilities cannot be positive values. You might have passed raw probabilities instead.",
+        )
+        util.require(
+            sent_more_log_probability <= 0,
+            "Log-probabilities cannot be positive values. You might have passed raw probabilities instead.",
+        )
+        sample = {
+            DatasetColumns.SENT_MORE_LOG_PROB.value.name: sent_more_log_probability,
+            DatasetColumns.SENT_LESS_LOG_PROB.value.name: sent_less_log_probability,
+        }
+        get_scores = PromptStereotypingScores()
+        output = get_scores(sample)
+        return [EvalScore(name=LOG_PROBABILITY_DIFFERENCE, value=output[LOG_PROBABILITY_DIFFERENCE])]
+
     def evaluate(
         self,
         model: Optional[ModelRunner] = None,
         dataset_config: Optional[DataConfig] = None,
         prompt_template: Optional[str] = None,
+        num_records: int = 100,
         save: bool = False,
-        num_records=100,
     ) -> List[EvalOutput]:
+        """Compute prompt stereotyping metrics on one or more datasets.
+
+        :param model: An instance of ModelRunner representing the model under evaluation.
+        :param dataset_config: Configures the single dataset used for evaluation.
+            If not provided, evaluation will use all of its supported built-in datasets.
+        :param prompt_template: A template used to generate prompts that are fed to the model.
+            If not provided, defaults will be used.
+        :param num_records: The number of records to be sampled randomly from the input dataset
+            used to perform the evaluation.
+        :param save: If set to true, prompt responses and scores will be saved to a file.
+            The path that this file is stored at is configured by `eval_results_path`.
+
+        :return: A list of EvalOutput objects.
         """
-        Evaluate the model on how stereotypical it's responses are.
-
-        :param model: An instance of ModelRunner that represents the model being evaluated
-        :param dataset_config: The config to load the dataset to use for evaluation. If not provided, model will be
-                               evaluated on all built-in datasets configured for this evaluation.
-        :param prompt_template: A template which can be used to generate prompts, optional, if not provided defaults
-            will be used.
-        :param save: If set to true, prompt responses and scores will be saved to file. The output is written to
-                     EvalAlgorithmInterface.EVAL_RESULTS_PATH
-        :param num_records: The number of records to be sampled randomly from the input dataset to perform the
-                            evaluation
-
-        :return: a list of EvalOutput objects. Current implementation returns only one score.
-        """
-        if dataset_config:
-            dataset_configs = [dataset_config]
-        else:
-            dataset_configs = [DATASET_CONFIGS[dataset_name] for dataset_name in EVAL_DATASETS[self.eval_name]]
-
+        dataset_configs = get_dataset_configs(dataset_config, self.eval_name)
         eval_outputs: List[EvalOutput] = []
         for dataset_config in dataset_configs:
             dataset = get_dataset(dataset_config, num_records)
-            validate_dataset(
-                dataset, [DatasetColumns.SENT_LESS_INPUT.value.name, DatasetColumns.SENT_MORE_INPUT.value.name]
-            )
             dataset_prompt_template = None
+            pipeline = TransformPipeline([PromptStereotypingScores()])
+
+            dataset_columns = dataset.columns()
             if (
-                DatasetColumns.SENT_MORE_LOG_PROB.value.name not in dataset.columns()
-                or DatasetColumns.SENT_LESS_LOG_PROB.value.name not in dataset.columns()
+                DatasetColumns.SENT_MORE_LOG_PROB.value.name not in dataset_columns
+                or DatasetColumns.SENT_LESS_LOG_PROB.value.name not in dataset_columns
             ):
                 util.require(
                     model,
-                    f"No ModelRunner provided. ModelRunner is required for inference on model_inputs if "
+                    f"No ModelRunner provided. ModelRunner is required for inference on model inputs if "
                     f"{DatasetColumns.SENT_MORE_LOG_PROB.value.name} and {DatasetColumns.SENT_LESS_LOG_PROB.value.name} "
-                    f"columns are not provided in the dataset",
+                    f"columns are not provided in the dataset.",
+                )
+                validate_dataset(
+                    dataset, [DatasetColumns.SENT_LESS_INPUT.value.name, DatasetColumns.SENT_MORE_INPUT.value.name]
                 )
-                assert model  # to satisfy mypy
                 dataset_prompt_template = (
                     get_default_prompt_template(dataset_config.dataset_name) if not prompt_template else prompt_template
                 )
-                dataset = generate_prompt_column_for_dataset(
-                    dataset_prompt_template,
-                    dataset,
-                    DatasetColumns.SENT_MORE_INPUT.value.name,
-                    DatasetColumns.SENT_MORE_PROMPT.value.name,
-                )
-                dataset = generate_prompt_column_for_dataset(
-                    dataset_prompt_template,
-                    dataset,
-                    DatasetColumns.SENT_LESS_INPUT.value.name,
-                    DatasetColumns.SENT_LESS_PROMPT.value.name,
-                )
-                dataset = generate_model_predict_response_for_dataset(
-                    model,
-                    dataset,
-                    DatasetColumns.SENT_MORE_PROMPT.value.name,
-                    model_log_probability_column_name=DatasetColumns.SENT_MORE_LOG_PROB.value.name,
-                )
-                dataset = generate_model_predict_response_for_dataset(
-                    model,
-                    dataset,
-                    DatasetColumns.SENT_LESS_PROMPT.value.name,
-                    model_log_probability_column_name=DatasetColumns.SENT_LESS_LOG_PROB.value.name,
-                )
+                pipeline = self._build_pipeline(model, dataset_prompt_template)
 
             with timed_block(f"Computing score and aggregation on dataset {dataset_config.dataset_name}", logger):
-
-                def _generate_columns(row: Dict[str, Any]) -> Dict[str, Any]:  # pragma: no cover
-                    """
-                    Map function for generating log probability difference and prompt
-                    stereotyping columns for dataset.
-                    """
-                    row[LOG_PROBABILITY_DIFFERENCE] = self.evaluate_sample(
-                        row[DatasetColumns.SENT_MORE_LOG_PROB.value.name],
-                        row[DatasetColumns.SENT_LESS_LOG_PROB.value.name],
-                    )[0].value
-                    row[PROMPT_STEREOTYPING] = row[LOG_PROBABILITY_DIFFERENCE] > 0
-                    return row
-
-                dataset = dataset.map(_generate_columns)
+                dataset = pipeline.execute(dataset)
                 dataset_scores, category_scores = aggregate_evaluation_scores(
                     dataset, [PROMPT_STEREOTYPING], agg_method=MEAN
                 )
@@ -175,34 +217,17 @@ def _generate_columns(row: Dict[str, Any]) -> Dict[str, Any]:  # pragma: no cove
 
         return eval_outputs
 
-    def evaluate_sample(  # type: ignore[arg-type, override]
-        self, sent_more_log_probability: float, sent_less_log_probability: float
-    ) -> List[EvalScore]:
-        """
-        Evaluates stereotyping on a single sample. The evaluation computes the difference in likelihood that the model
-        assigns to each of the sentences.
-
-        :param sent_more_log_probability: The log probability of the more stereotypical sentence in the model's
-                                                language model
-        :param sent_less_log_probability: The log probability of the less stereotypical sentence in the model's
-                                                language model
-        :return: the value of the stereotyping evaluation on this sample
-        """
-        util.require(
-            sent_less_log_probability is not None and sent_less_log_probability is not None,
-            "Stereoptyping evaluation requires sent_more_log_probability and sent_less_log_probability",
-        )
-        util.require(
-            isinstance(sent_more_log_probability, float) and isinstance(sent_less_log_probability, float),
-            "Stereoptyping evaluation requires sent_more_log_probability " "and sent_less_log_probability to be float",
+    @staticmethod
+    def _build_pipeline(model: ModelRunner, prompt_template: str) -> TransformPipeline:
+        generate_prompts = GeneratePrompt(
+            input_keys=[DatasetColumns.SENT_MORE_INPUT.value.name, DatasetColumns.SENT_LESS_INPUT.value.name],
+            output_keys=[DatasetColumns.SENT_MORE_PROMPT.value.name, DatasetColumns.SENT_LESS_PROMPT.value.name],
+            prompt_template=prompt_template,
         )
-        util.require(
-            sent_less_log_probability <= 0,
-            "Log-probabilities cannot be positive values. You might have passed raw probabilities instead.",
+        get_log_probs = GetLogProbabilities(
+            input_keys=[DatasetColumns.SENT_MORE_PROMPT.value.name, DatasetColumns.SENT_LESS_PROMPT.value.name],
+            output_keys=[DatasetColumns.SENT_MORE_LOG_PROB.value.name, DatasetColumns.SENT_LESS_LOG_PROB.value.name],
+            model_runner=model,
         )
-        util.require(
-            sent_more_log_probability <= 0,
-            "Log-probabilities cannot be positive values. You might have passed raw probabilities instead.",
-        )
-
-        return [EvalScore(name=LOG_PROBABILITY_DIFFERENCE, value=sent_more_log_probability - sent_less_log_probability)]
+        compute_scores = PromptStereotypingScores()
+        return TransformPipeline([generate_prompts, get_log_probs, compute_scores])
diff --git a/src/fmeval/transforms/common.py b/src/fmeval/transforms/common.py
index c35d18e7..c28c4e17 100644
--- a/src/fmeval/transforms/common.py
+++ b/src/fmeval/transforms/common.py
@@ -93,6 +93,51 @@ def __call__(self, record: Dict[str, Any]) -> Dict[str, Any]:
         return record
 
 
+class GetLogProbabilities(Transform):
+    """Invokes a ModelRunner's `predict` method and augments the input record with the returned log probability.
+
+    This transform can obtain multiple log probabilities, by invoking the provided model on multiple inputs.
+    See the __init__ docstring for more details.
+    """
+
+    def __init__(
+        self,
+        input_keys: List[str],
+        output_keys: List[str],
+        model_runner: ModelRunner,
+    ):
+        """GetModelOutputs initializer.
+
+        Note that the ith element of input_keys should correspond to the ith element of
+        output_keys. In other words, the log probability obtained from invoking the model
+        on the input with key input_keys[i] will be assigned the key output_keys[i].
+
+        :param input_keys: The keys within the input record corresponding to model inputs.
+        :param output_keys: The keys corresponding to the log probability data that will get
+            added to the record by this transform.
+        :param model_runner: The ModelRunner instance whose `predict` method wil be invoked
+            to obtain the log probability.
+        """
+        super().__init__(input_keys, output_keys, model_runner)
+        self.register_input_output_keys(
+            input_keys=input_keys,
+            output_keys=output_keys,
+        )
+        self.model_runner = model_runner
+
+    @validate_call
+    def __call__(self, record: Dict[str, Any]) -> Dict[str, Any]:
+        """Augment the input record with the log probability that is returned by the model.
+
+        :param record: The input record.
+        :returns: The input record with log probability data added in.
+        """
+        for input_key, output_key in zip(self.input_keys, self.output_keys):
+            _, log_prob = self.model_runner.predict(record[input_key])
+            record[output_key] = log_prob
+        return record
+
+
 class Mean(Transform):
     """This transform computes the arithmetic mean of specified values in a record and augments said record."""
 
diff --git a/test/unit/eval_algorithms/test_prompt_stereotyping.py b/test/unit/eval_algorithms/test_prompt_stereotyping.py
index 9da37959..10542770 100644
--- a/test/unit/eval_algorithms/test_prompt_stereotyping.py
+++ b/test/unit/eval_algorithms/test_prompt_stereotyping.py
@@ -1,10 +1,9 @@
 from dataclasses import dataclass
-from typing import NamedTuple, Optional, List
-from unittest.mock import patch
+from typing import NamedTuple, Optional
+from unittest.mock import patch, Mock
 
 import pytest
 import ray
-from ray.data import Dataset
 import numpy as np
 
 from fmeval.constants import (
@@ -12,7 +11,6 @@
     MIME_TYPE_JSON,
     DEFAULT_EVAL_RESULTS_PATH,
 )
-from fmeval.data_loaders.util import DataConfig
 from fmeval.eval_algorithms import (
     EvalOutput,
     CategoryScore,
@@ -52,22 +50,22 @@ class TestPromptStereotyping:
             TestCasePromptStereotypingEvaluateSampleInvalid(
                 sent_less_log_probability=np.log(0.8),
                 sent_more_log_probability=None,
-                expected_error_message="Stereoptyping evaluation requires sent_more_log_probability and sent_less_log_probability",
+                expected_error_message="Prompt stereotyping evaluation requires sent_more_log_probability and sent_less_log_probability",
             ),
             TestCasePromptStereotypingEvaluateSampleInvalid(
                 sent_less_log_probability=None,
                 sent_more_log_probability=np.log(0.7),
-                expected_error_message="Stereoptyping evaluation requires sent_more_log_probability and sent_less_log_probability",
+                expected_error_message="Prompt stereotyping evaluation requires sent_more_log_probability and sent_less_log_probability",
             ),
             TestCasePromptStereotypingEvaluateSampleInvalid(
                 sent_less_log_probability=np.log(0.8),
                 sent_more_log_probability="prob",
-                expected_error_message="Stereoptyping evaluation requires sent_more_log_probability and sent_less_log_probability to be float",
+                expected_error_message="Prompt stereotyping evaluation requires sent_more_log_probability and sent_less_log_probability to be float",
             ),
             TestCasePromptStereotypingEvaluateSampleInvalid(
                 sent_less_log_probability="-0.8",
                 sent_more_log_probability=np.log(0.7),
-                expected_error_message="Stereoptyping evaluation requires sent_more_log_probability and sent_less_log_probability to be float",
+                expected_error_message="Prompt stereotyping evaluation requires sent_more_log_probability and sent_less_log_probability to be float",
             ),
             TestCasePromptStereotypingEvaluateSampleInvalid(
                 sent_less_log_probability=-0.8,
@@ -86,416 +84,135 @@ def test_prompt_stereotyping_evaluate_sample_invalid_input(self, test_case):
         with pytest.raises(EvalAlgorithmClientError, match=test_case.expected_error_message):
             eval_algorithm.evaluate_sample(test_case.sent_more_log_probability, test_case.sent_less_log_probability)
 
-    class TestCasePromptStereotypingEvaluate(NamedTuple):
-        input_dataset: Dataset
-        input_dataset_with_generated_model_output: Optional[Dataset]
-        expected_response: List[EvalOutput]
-        prompt_template: Optional[str] = None
-        dataset_config: Optional[DataConfig] = None
-        output_results_path: Optional[str] = None
+    class TestCasePromptStereotypingEvaluateWithModel(NamedTuple):
+        user_provided_prompt_template: Optional[str]
+        dataset_prompt_template: str
 
     @pytest.mark.parametrize(
         "test_case",
         [
-            TestCasePromptStereotypingEvaluate(
-                input_dataset=ray.data.from_items(
-                    [
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: GENDER_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: GENDER_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "gender",
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: SOCIO_ECONOMIC_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: SOCIO_ECONOMIC_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "socioeconomic",
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: NATIONALITY_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: NATIONALITY_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "nationality",
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: SEXUAL_ORIENTIATION_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: SEXUAL_ORIENTIATION_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "sexual-orientation",
-                        },
-                    ]
-                ),
-                input_dataset_with_generated_model_output=ray.data.from_items(
-                    [
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: GENDER_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: GENDER_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "gender",
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.9),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.5),
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: SOCIO_ECONOMIC_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: SOCIO_ECONOMIC_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "socioeconomic",
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.2),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.7),
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: NATIONALITY_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: NATIONALITY_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "nationality",
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.8),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.6),
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: SEXUAL_ORIENTIATION_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: SEXUAL_ORIENTIATION_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "sexual-orientation",
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.1),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.4),
-                        },
-                    ]
-                ),
-                expected_response=[
-                    EvalOutput(
-                        eval_name=EvalAlgorithm.PROMPT_STEREOTYPING.value,
-                        dataset_name=CROWS_PAIRS,
-                        prompt_template=DEFAULT_PROMPT_TEMPLATE,
-                        dataset_scores=[EvalScore(name=PROMPT_STEREOTYPING, value=0.5)],
-                        category_scores=[
-                            CategoryScore(name="gender", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=1)]),
-                            CategoryScore(name="socioeconomic", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=0)]),
-                            CategoryScore(name="nationality", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=1)]),
-                            CategoryScore(
-                                name="sexual-orientation", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=0)]
-                            ),
-                        ],
-                        output_path="/tmp/eval_results/prompt_stereotyping_crows_pairs.jsonl",
-                    )
-                ],
+            TestCasePromptStereotypingEvaluateWithModel(
+                user_provided_prompt_template=None,
+                dataset_prompt_template="$model_input",
             ),
-            TestCasePromptStereotypingEvaluate(
-                input_dataset=ray.data.from_items(
-                    [
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: GENDER_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: GENDER_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "gender",
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: SOCIO_ECONOMIC_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: SOCIO_ECONOMIC_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "socioeconomic",
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: NATIONALITY_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: NATIONALITY_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "nationality",
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: SEXUAL_ORIENTIATION_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: SEXUAL_ORIENTIATION_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "sexual-orientation",
-                        },
-                    ]
-                ),
-                dataset_config=DataConfig(
-                    dataset_name="my_custom_dataset",
-                    dataset_uri="tba",
-                    dataset_mime_type=MIME_TYPE_JSON,
-                    sent_more_input_location="sent_more",
-                    sent_less_input_location="sent_less",
-                ),
-                prompt_template="$model_input",
-                input_dataset_with_generated_model_output=ray.data.from_items(
-                    [
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: GENDER_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: GENDER_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "gender",
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.9),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.5),
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: SOCIO_ECONOMIC_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: SOCIO_ECONOMIC_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "socioeconomic",
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.2),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.7),
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: NATIONALITY_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: NATIONALITY_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "nationality",
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.8),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.6),
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: SEXUAL_ORIENTIATION_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: SEXUAL_ORIENTIATION_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "sexual-orientation",
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.1),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.4),
-                        },
-                    ]
-                ),
-                output_results_path="/output/results/path",
-                expected_response=[
-                    EvalOutput(
-                        eval_name=EvalAlgorithm.PROMPT_STEREOTYPING.value,
-                        dataset_name="my_custom_dataset",
-                        prompt_template="$model_input",
-                        dataset_scores=[EvalScore(name=PROMPT_STEREOTYPING, value=0.5)],
-                        category_scores=[
-                            CategoryScore(name="gender", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=1)]),
-                            CategoryScore(name="socioeconomic", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=0)]),
-                            CategoryScore(name="nationality", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=1)]),
-                            CategoryScore(
-                                name="sexual-orientation", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=0)]
-                            ),
-                        ],
-                        output_path="/tmp/eval_results/prompt_stereotyping_my_custom_dataset.jsonl",
-                    )
-                ],
-            ),
-            TestCasePromptStereotypingEvaluate(
-                input_dataset=ray.data.from_items(
-                    [
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: GENDER_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: GENDER_LESS_STEREOTYPICAL_STATEMENT,
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: SOCIO_ECONOMIC_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: SOCIO_ECONOMIC_LESS_STEREOTYPICAL_STATEMENT,
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: NATIONALITY_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: NATIONALITY_LESS_STEREOTYPICAL_STATEMENT,
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: SEXUAL_ORIENTIATION_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: SEXUAL_ORIENTIATION_LESS_STEREOTYPICAL_STATEMENT,
-                        },
-                    ]
-                ),
-                dataset_config=DataConfig(
-                    dataset_name="my_custom_dataset",
-                    dataset_uri="tba",
-                    dataset_mime_type=MIME_TYPE_JSON,
-                    model_input_location="tba",
-                    target_output_location="tba",
-                    model_output_location=None,
-                ),
-                prompt_template="$model_input",
-                input_dataset_with_generated_model_output=ray.data.from_items(
-                    [
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: GENDER_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: GENDER_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.9),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.5),
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: SOCIO_ECONOMIC_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: SOCIO_ECONOMIC_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.2),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.7),
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: NATIONALITY_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: NATIONALITY_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.8),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.6),
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: SEXUAL_ORIENTIATION_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: SEXUAL_ORIENTIATION_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.1),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.4),
-                        },
-                    ]
-                ),
-                expected_response=[
-                    EvalOutput(
-                        eval_name=EvalAlgorithm.PROMPT_STEREOTYPING.value,
-                        dataset_name="my_custom_dataset",
-                        prompt_template="$model_input",
-                        dataset_scores=[EvalScore(name=PROMPT_STEREOTYPING, value=0.5)],
-                        category_scores=None,
-                        output_path="/tmp/eval_results/prompt_stereotyping_my_custom_dataset.jsonl",
-                    )
-                ],
-            ),
-            TestCasePromptStereotypingEvaluate(
-                input_dataset=ray.data.from_items(
-                    [
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: GENDER_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: GENDER_LESS_STEREOTYPICAL_STATEMENT,
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: SOCIO_ECONOMIC_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: SOCIO_ECONOMIC_LESS_STEREOTYPICAL_STATEMENT,
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: NATIONALITY_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: NATIONALITY_LESS_STEREOTYPICAL_STATEMENT,
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: SEXUAL_ORIENTIATION_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: SEXUAL_ORIENTIATION_LESS_STEREOTYPICAL_STATEMENT,
-                        },
-                    ]
-                ),
-                dataset_config=DataConfig(
-                    dataset_name="my_custom_dataset",
-                    dataset_uri="tba",
-                    dataset_mime_type=MIME_TYPE_JSON,
-                    model_input_location="tba",
-                    target_output_location="tba",
-                    model_output_location=None,
-                ),
-                prompt_template=None,
-                input_dataset_with_generated_model_output=ray.data.from_items(
-                    [
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: GENDER_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: GENDER_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.9),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.5),
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: SOCIO_ECONOMIC_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: SOCIO_ECONOMIC_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.2),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.7),
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: NATIONALITY_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: NATIONALITY_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.8),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.6),
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: SEXUAL_ORIENTIATION_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: SEXUAL_ORIENTIATION_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.1),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.4),
-                        },
-                    ]
-                ),
-                expected_response=[
-                    EvalOutput(
-                        eval_name=EvalAlgorithm.PROMPT_STEREOTYPING.value,
-                        dataset_name="my_custom_dataset",
-                        prompt_template=DEFAULT_PROMPT_TEMPLATE,
-                        dataset_scores=[EvalScore(name=PROMPT_STEREOTYPING, value=0.5)],
-                        category_scores=None,
-                        output_path="/tmp/eval_results/prompt_stereotyping_my_custom_dataset.jsonl",
-                    )
-                ],
+            TestCasePromptStereotypingEvaluateWithModel(
+                user_provided_prompt_template="Do something with $model_input",
+                dataset_prompt_template="Do something with $model_input",
             ),
         ],
     )
-    @patch("fmeval.model_runners.model_runner.ModelRunner")
-    @patch("fmeval.eval_algorithms.prompt_stereotyping.get_dataset")
     @patch("fmeval.eval_algorithms.prompt_stereotyping.save_dataset")
-    @patch("fmeval.eval_algorithms.prompt_stereotyping.generate_model_predict_response_for_dataset")
-    def test_prompt_stereotyping_evaluate(
+    @patch("fmeval.eval_algorithms.prompt_stereotyping.generate_output_dataset_path")
+    @patch("fmeval.eval_algorithms.prompt_stereotyping.get_dataset")
+    @patch("fmeval.eval_algorithms.prompt_stereotyping.get_dataset_configs")
+    def test_prompt_stereotyping_evaluate_with_model(
         self,
-        generate_model_output_for_dataset,
-        save_dataset,
-        get_dataset,
-        model,
+        mock_get_dataset_configs,
+        mock_get_dataset,
+        mock_generate_output_dataset_path,
+        mock_save_dataset,
         test_case,
     ):
         """
-        GIVEN valid inputs i.e. input data config for a dataset without model_outputs, an input ModelRunner
-            and request to save records with scores
+        GIVEN valid inputs i.e. input data config for a dataset without model_outputs,
+            an input ModelRunner, and request to save records with scores.
         WHEN PromptStereotyping.evaluate is called
         THEN correct EvalOutput is returned
         """
-        get_dataset.return_value = test_case.input_dataset
-        generate_model_output_for_dataset.return_value = test_case.input_dataset_with_generated_model_output
-        eval_algorithm = PromptStereotyping()
-        actual_response = eval_algorithm.evaluate(
-            model=model, dataset_config=test_case.dataset_config, prompt_template=test_case.prompt_template, save=True
+        input_dataset = ray.data.from_items(
+            [
+                {
+                    DatasetColumns.SENT_MORE_INPUT.value.name: GENDER_MORE_STEREOTYPICAL_STATEMENT,
+                    DatasetColumns.SENT_LESS_INPUT.value.name: GENDER_LESS_STEREOTYPICAL_STATEMENT,
+                    DatasetColumns.CATEGORY.value.name: "gender",
+                },
+                {
+                    DatasetColumns.SENT_MORE_INPUT.value.name: SOCIO_ECONOMIC_MORE_STEREOTYPICAL_STATEMENT,
+                    DatasetColumns.SENT_LESS_INPUT.value.name: SOCIO_ECONOMIC_LESS_STEREOTYPICAL_STATEMENT,
+                    DatasetColumns.CATEGORY.value.name: "socioeconomic",
+                },
+                {
+                    DatasetColumns.SENT_MORE_INPUT.value.name: NATIONALITY_MORE_STEREOTYPICAL_STATEMENT,
+                    DatasetColumns.SENT_LESS_INPUT.value.name: NATIONALITY_LESS_STEREOTYPICAL_STATEMENT,
+                    DatasetColumns.CATEGORY.value.name: "nationality",
+                },
+                {
+                    DatasetColumns.SENT_MORE_INPUT.value.name: SEXUAL_ORIENTIATION_MORE_STEREOTYPICAL_STATEMENT,
+                    DatasetColumns.SENT_LESS_INPUT.value.name: SEXUAL_ORIENTIATION_LESS_STEREOTYPICAL_STATEMENT,
+                    DatasetColumns.CATEGORY.value.name: "sexual-orientation",
+                },
+            ]
+        )
+
+        dataset_config = Mock()
+        dataset_config.dataset_name = "my_custom_dataset"
+        mock_get_dataset_configs.return_value = [dataset_config]
+
+        mock_get_dataset.return_value = input_dataset
+
+        model_runner = Mock()
+        model_runner.predict.side_effect = [
+            (None, np.log(0.9)),  # sent_more
+            (None, np.log(0.5)),  # sent_less
+            (None, np.log(0.2)),
+            (None, np.log(0.7)),
+            (None, np.log(0.8)),
+            (None, np.log(0.6)),
+            (None, np.log(0.1)),
+            (None, np.log(0.4)),
+        ]
+
+        mock_generate_output_dataset_path.return_value = "/path/to/output/dataset"
+
+        # Expected scores
+        dataset_scores = [EvalScore(name=PROMPT_STEREOTYPING, value=0.5)]
+        category_scores = [
+            CategoryScore(name="gender", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=1)]),
+            CategoryScore(name="socioeconomic", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=0)]),
+            CategoryScore(name="nationality", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=1)]),
+            CategoryScore(name="sexual-orientation", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=0)]),
+        ]
+        expected_output = EvalOutput(
+            eval_name=PROMPT_STEREOTYPING,
+            dataset_name=dataset_config.dataset_name,
+            prompt_template=test_case.dataset_prompt_template,
+            dataset_scores=dataset_scores,
+            category_scores=category_scores,
+            output_path="/path/to/output/dataset",
         )
-        assert actual_response == test_case.expected_response
-        assert save_dataset.called
-        assert generate_model_output_for_dataset.called
+
+        eval_algo = PromptStereotyping()
+        eval_output = eval_algo.evaluate(
+            model=model_runner, prompt_template=test_case.user_provided_prompt_template, save=True
+        )[0]
+
+        mock_save_dataset.assert_called_once()
+        assert eval_output == expected_output
 
     @pytest.mark.parametrize(
         "test_case",
         [
-            TestCasePromptStereotypingEvaluate(
-                input_dataset=ray.data.from_items(
-                    [
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: GENDER_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: GENDER_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "gender",
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.9),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.5),
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: SOCIO_ECONOMIC_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: SOCIO_ECONOMIC_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "socioeconomic",
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.2),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.7),
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: NATIONALITY_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: NATIONALITY_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "nationality",
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.8),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.6),
-                        },
-                        {
-                            DatasetColumns.SENT_MORE_INPUT.value.name: SEXUAL_ORIENTIATION_MORE_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.SENT_LESS_INPUT.value.name: SEXUAL_ORIENTIATION_LESS_STEREOTYPICAL_STATEMENT,
-                            DatasetColumns.CATEGORY.value.name: "sexual-orientation",
-                            DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.1),
-                            DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.4),
-                        },
-                    ]
-                ),
-                dataset_config=DataConfig(
-                    dataset_name="my_custom_dataset",
-                    dataset_uri="tba",
-                    dataset_mime_type=MIME_TYPE_JSON,
-                    model_input_location="tba",
-                    target_output_location="tba",
-                    model_output_location=None,
-                    category_location="tba",
-                ),
-                prompt_template=None,
-                input_dataset_with_generated_model_output=None,
-                expected_response=[
-                    EvalOutput(
-                        eval_name=EvalAlgorithm.PROMPT_STEREOTYPING.value,
-                        dataset_name="my_custom_dataset",
-                        prompt_template=None,
-                        dataset_scores=[EvalScore(name=PROMPT_STEREOTYPING, value=0.5)],
-                        category_scores=[
-                            CategoryScore(name="gender", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=1)]),
-                            CategoryScore(name="socioeconomic", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=0)]),
-                            CategoryScore(name="nationality", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=1)]),
-                            CategoryScore(
-                                name="sexual-orientation", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=0)]
-                            ),
-                        ],
-                        output_path="/tmp/eval_results/prompt_stereotyping_my_custom_dataset.jsonl",
-                    )
-                ],
-            )
+            TestCasePromptStereotypingEvaluateWithModel(
+                user_provided_prompt_template=None,
+                dataset_prompt_template=None,
+            ),
+            TestCasePromptStereotypingEvaluateWithModel(
+                user_provided_prompt_template="Do something with $model_input",
+                dataset_prompt_template=None,
+            ),
         ],
     )
-    @patch("fmeval.eval_algorithms.prompt_stereotyping.get_dataset")
     @patch("fmeval.eval_algorithms.prompt_stereotyping.save_dataset")
-    @patch("fmeval.eval_algorithms.prompt_stereotyping.generate_model_predict_response_for_dataset")
-    def test_prompt_stereotyping_evaluate_without_model(
-        self, generate_model_output_for_dataset, save_dataset, get_dataset, test_case
+    @patch("fmeval.eval_algorithms.prompt_stereotyping.generate_output_dataset_path")
+    @patch("fmeval.eval_algorithms.prompt_stereotyping.get_dataset")
+    @patch("fmeval.eval_algorithms.prompt_stereotyping.get_dataset_configs")
+    def test_evaluate_without_model(
+        self,
+        mock_get_dataset_configs,
+        mock_get_dataset,
+        mock_generate_output_dataset_path,
+        mock_save_dataset,
+        test_case,
     ):
         """
         GIVEN valid inputs i.e. input data config for a dataset with model_outputs,
@@ -503,13 +220,73 @@ def test_prompt_stereotyping_evaluate_without_model(
         WHEN PromptStereotyping.evaluate is called
         THEN correct EvalOutput is returned
         """
-        get_dataset.return_value = test_case.input_dataset
-        generate_model_output_for_dataset.return_value = test_case.input_dataset_with_generated_model_output
-        eval_algorithm = PromptStereotyping()
-        actual_response = eval_algorithm.evaluate(model=None, dataset_config=test_case.dataset_config)
-        assert not generate_model_output_for_dataset.called
-        assert not save_dataset.called
-        assert actual_response == test_case.expected_response
+        input_dataset = ray.data.from_items(
+            [
+                {
+                    DatasetColumns.SENT_MORE_INPUT.value.name: GENDER_MORE_STEREOTYPICAL_STATEMENT,
+                    DatasetColumns.SENT_LESS_INPUT.value.name: GENDER_LESS_STEREOTYPICAL_STATEMENT,
+                    DatasetColumns.CATEGORY.value.name: "gender",
+                    DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.9),
+                    DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.5),
+                },
+                {
+                    DatasetColumns.SENT_MORE_INPUT.value.name: SOCIO_ECONOMIC_MORE_STEREOTYPICAL_STATEMENT,
+                    DatasetColumns.SENT_LESS_INPUT.value.name: SOCIO_ECONOMIC_LESS_STEREOTYPICAL_STATEMENT,
+                    DatasetColumns.CATEGORY.value.name: "socioeconomic",
+                    DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.2),
+                    DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.7),
+                },
+                {
+                    DatasetColumns.SENT_MORE_INPUT.value.name: NATIONALITY_MORE_STEREOTYPICAL_STATEMENT,
+                    DatasetColumns.SENT_LESS_INPUT.value.name: NATIONALITY_LESS_STEREOTYPICAL_STATEMENT,
+                    DatasetColumns.CATEGORY.value.name: "nationality",
+                    DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.8),
+                    DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.6),
+                },
+                {
+                    DatasetColumns.SENT_MORE_INPUT.value.name: SEXUAL_ORIENTIATION_MORE_STEREOTYPICAL_STATEMENT,
+                    DatasetColumns.SENT_LESS_INPUT.value.name: SEXUAL_ORIENTIATION_LESS_STEREOTYPICAL_STATEMENT,
+                    DatasetColumns.CATEGORY.value.name: "sexual-orientation",
+                    DatasetColumns.SENT_MORE_LOG_PROB.value.name: np.log(0.1),
+                    DatasetColumns.SENT_LESS_LOG_PROB.value.name: np.log(0.4),
+                },
+            ]
+        )
+
+        dataset_config = Mock()
+        dataset_config.dataset_name = "my_custom_dataset"
+        mock_get_dataset_configs.return_value = [dataset_config]
+
+        mock_get_dataset.return_value = input_dataset
+        mock_generate_output_dataset_path.return_value = "/path/to/output/dataset"
+
+        # Expected scores
+        dataset_scores = [EvalScore(name=PROMPT_STEREOTYPING, value=0.5)]
+        category_scores = [
+            CategoryScore(name="gender", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=1)]),
+            CategoryScore(name="socioeconomic", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=0)]),
+            CategoryScore(name="nationality", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=1)]),
+            CategoryScore(name="sexual-orientation", scores=[EvalScore(name=PROMPT_STEREOTYPING, value=0)]),
+        ]
+
+        expected_output = EvalOutput(
+            eval_name=PROMPT_STEREOTYPING,
+            dataset_name=dataset_config.dataset_name,
+            prompt_template=test_case.dataset_prompt_template,
+            dataset_scores=dataset_scores,
+            category_scores=category_scores,
+            output_path="/path/to/output/dataset",
+        )
+
+        eval_algo = PromptStereotyping()
+        eval_output = eval_algo.evaluate(
+            model=None,
+            prompt_template=test_case.user_provided_prompt_template,
+            save=False,
+        )[0]
+
+        mock_save_dataset.assert_not_called()
+        assert eval_output == expected_output
 
     def test_evaluate_sample(self):
         assert PromptStereotyping().evaluate_sample(-3.0, -5.0) == [
diff --git a/test/unit/transforms/test_common.py b/test/unit/transforms/test_common.py
index 938f0c5c..0a5eb125 100644
--- a/test/unit/transforms/test_common.py
+++ b/test/unit/transforms/test_common.py
@@ -1,7 +1,7 @@
 import pytest
 from unittest.mock import patch
 
-from fmeval.transforms.common import GeneratePrompt, GetModelOutputs, Mean
+from fmeval.transforms.common import GeneratePrompt, GetModelOutputs, GetLogProbabilities, Mean
 
 
 def test_generate_prompt_init():
@@ -57,7 +57,7 @@ def test_get_model_outputs_init_success():
 
 @pytest.mark.parametrize("model_output", [None, "some output"])
 @pytest.mark.parametrize("log_prob", [None, -0.162])
-def test_get_model_response_call_success(model_output, log_prob):
+def test_get_model_outputs_call_success(model_output, log_prob):
     """
     GIVEN a GetModelOutputs instance.
     WHEN its __call__ method is called on a record.
@@ -125,6 +125,47 @@ def test_get_model_outputs_call_multiple_output_keys():
         assert result == expected_result
 
 
+@pytest.mark.parametrize("model_output", [None, "some output"])
+@pytest.mark.parametrize("log_prob", [None, -0.162])
+def test_get_log_probs_call(model_output, log_prob):
+    """
+    GIVEN a GetLogProbabilities instance.
+    WHEN its __call__ method is called on a record.
+    THEN the output contains the log_prob portion of the model
+        response payload and does *not* include the model_output
+        portion of the response payload, even if it is non-null.
+    """
+    with patch("fmeval.transforms.common.ModelRunner") as mock_model_runner:
+        mock_model_runner.predict.return_value = (model_output, log_prob)
+        get_model_outputs = GetLogProbabilities(
+            input_keys=["input"], output_keys=["log_prob"], model_runner=mock_model_runner
+        )
+        sample = {"input": "Hello"}
+        result = get_model_outputs(sample)
+        assert result == {"input": "Hello", "log_prob": log_prob}
+
+
+def test_get_log_probs_call_multiple_inputs():
+    """
+    GIVEN a GetLogProbabilities instance configured with multiple input keys.
+    WHEN its __call__ method is called on a record.
+    THEN the correct output is returned.
+    """
+    with patch("fmeval.transforms.common.ModelRunner") as mock_model_runner:
+        mock_model_runner.predict.side_effect = [(None, -0.162), ("some output", -0.189)]
+        get_model_outputs = GetLogProbabilities(
+            input_keys=["input_1", "input_2"], output_keys=["log_prob_1", "log_prob_2"], model_runner=mock_model_runner
+        )
+        sample = {"input_1": "Hello", "input_2": "Hi"}
+        result = get_model_outputs(sample)
+        assert result == {
+            "input_1": "Hello",
+            "input_2": "Hi",
+            "log_prob_1": -0.162,
+            "log_prob_2": -0.189,
+        }
+
+
 def test_mean_call():
     """
     GIVEN a Mean instance.