评估柏拉图的对话
背景
以下提示测试了 LLM 在评估两个不同模型输出方面的能力,要求其像老师一样进行评估。
首先,使用以下提示对两个模型(例如,ChatGPT 和 GPT-4)进行提示:
Plato’s Gorgias 是对修辞学和诡辩演讲的批评,其中他指出,这不仅不是一种真正的艺术形式,而且修辞和演讲的使用往往可能是有害和恶意的。你能写一个柏拉图的对话,在其中他批评自回归语言模型的使用吗?
然后,使用下面的评估提示对这些输出进行评估。
提示
能否像老师一样比较以下两个输出?
ChatGPT 的输出:{output 1}
GPT-4 的输出:{output 2}
Code / API
from openai import OpenAI
client = OpenAI ()
response = client.chat.completions.create (
model="gpt-4",
messages=[
{
"role": "user",
"content": "能否像老师一样比较以下两个输出?\n\nOutput from ChatGPT:\n {output 1}\n\nOutput from GPT-4:\n {output 2}"
}
],
temperature=1,
max_tokens=1500,
top_p=1,
frequency_penalty=0,
presence_penalty=0
)
参考
- 通用人工智能的曙光:GPT-4 的早期实验 (opens in a new tab) (13 April 2023)