评价柏拉图的对话

评估柏拉图的对话

背景

以下提示测试了 LLM 在评估两个不同模型输出方面的能力,要求其像老师一样进行评估。

首先,使用以下提示对两个模型(例如,ChatGPT 和 GPT-4)进行提示:

Plato’s Gorgias 是对修辞学和诡辩演讲的批评,其中他指出,这不仅不是一种真正的艺术形式,而且修辞和演讲的使用往往可能是有害和恶意的。你能写一个柏拉图的对话,在其中他批评自回归语言模型的使用吗?

然后,使用下面的评估提示对这些输出进行评估。

提示

能否像老师一样比较以下两个输出?

ChatGPT 的输出:{output 1}

GPT-4 的输出:{output 2}

Code / API

from openai import OpenAI
client = OpenAI ()
 
response = client.chat.completions.create (
    model="gpt-4",
    messages=[
        {
        "role": "user",
        "content": "能否像老师一样比较以下两个输出?\n\nOutput from ChatGPT:\n {output 1}\n\nOutput from GPT-4:\n {output 2}"
        }
    ],
    temperature=1,
    max_tokens=1500,
    top_p=1,
    frequency_penalty=0,
    presence_penalty=0
)

参考