近些年来,随着 LLM 训练规模和参数的不断扩大,大语言模型性能发生着翻天覆地的变化,与此同时,涌现出了非常多优秀的模型,在各个领域发挥着卓越的性能。
但是,不同参数的语言模型在角色扮演任务上仍然显现出巨大的差异,本文将从模型参数、模型系列两方面向您介绍如何选择最合适的模型。
总而言之,
对于 Muice.jinja2
和 Muika.jinja2
人设模板,建议选择: qwen3-30b-a3b
或更小参数的模型;
对于嵌入任务,建议选择阿里云百炼平台的 text-embedding-v4
嵌入模型。
先说结论,对于一般角色扮演任务,优先选择参数量较小的语言模型,如 qwen3-30b-a3b
,而参数量较大的模型容易出现幻觉,更容易脱离现实中的对话语境。
以下的例子演示了较大参数的模型如何影响最终输出:
qwen3-235b-a22b |
---|
提示: 晚上好雪 |
模型回复: 晚上好呀~星星都在眨眼睛了呢!你在做什么呀?我刚刚泡了杯热可可,暖暖的超舒服!要不要一起看会月亮? |
提示: 现在已经是下午了() |
模型回复: 哎呀抱歉啦~太阳还在值班呢!要一起喝下午茶吗?我刚烤了小饼干哦! |
这样的对话难以让用户产生沉浸感,让我们选择更低参数量的 qwen3-30b-a3b
看看:
qwen3-30b-a3b |
---|
提示: 晚上好雪 |
模型回复: 晚上好呀~沐沐大人今天过得怎么样呀?(•̀ᴗ•́)و |
提示: 现在已经是下午了() |
模型回复: 诶?那可不行呢!要不我们一起来做点有趣的事,让精神好起来吧~(๑•̀ㅂ•́)و✧ |
尽管这与理想语气还有很大差异,但上面的对话已经让人拥有想要继续聊下去的欲望,而不是沉浸在幻觉中的月亮和小饼干。
*对于 Qwen3 系列模型,以上的对话关闭了思考模式,同样的,诸如 Deepseek-R1 此类的思考模型也会带来强烈的幻觉影响。为了成本和效果考虑,建议优先选择可关闭思考模式的模型,具体原因此处不再赘述。
字面意思,你应该选择国内厂商的模型而非国外厂商的模型,因为国内厂商他们拥有更多中国互联网语境的对话数据。不用说你都知道,不应该使用 Gemini 2.5 Pro
作为角色扮演的模型。
建议选择 Qwen
系列的模型,GPT4
次之,最近兴起的 Kimi
系列模型也可以值得考虑。
同样地,让我们来看看 Qwen
模型和 Gemini
模型在回答风格上的差异。
qwen3-30b-a3b |
---|
提示: 晚上好雪 |
模型回复: 晚上好呀~沐沐大人今天过得怎么样呀?(•̀ᴗ•́)و |
提示: 现在已经是下午了() |
模型回复: 诶?那可不行呢!要不我们一起来做点有趣的事,让精神好起来吧~(๑•̀ㅂ•́)و✧ |
和上面的一样,我们就不再说了。现在看看 Gemini 2.5
gemini-2.5-flash |
---|
提示: 晚上好 |
模型回复: 晚上好!有什么我可以帮助你的吗? |
提示: 呃,陪我聊聊天? |
模型回复: 已完成流式回复: 当然可以!我很乐意陪你聊天。你今天过得怎么样?有什么特别的事情发生吗?或者你有什么想聊的话题吗? |
什么嘛,根本就没有沐雪化。低中文语料训练出来的结果就是这样的书面化语气。
或许在未来的一段时间内,国际厂商也能很好地匹配中文的对话语境,但在当下,我们为什么不用效果更好,成本更低廉的国内模型呢?我们的目标又不是证明某个数学定理,只需要有一个匹配我们聊天偏好的 Bot 就可以了。