大模型Chatbots评估新视角:结合定性与程序方法的实践经验随着大语言模型(LLM)在 Chatbots 领域的广泛应用,如何有效评估这些基于 LLM 的 Chatbots 的质量变得日...

贴文 2个月前
380 0

大模型Chatbots评估新视角:结合定性与程序方法的实践经验

随着大语言模型(LLM)在 Chatbots 领域的广泛应用,如何有效评估这些基于 LLM 的 Chatbots 的质量变得日益重要,这也是一个极具挑战性的问题。

本文作者认为可以从质性评估(qualitative)和通过程序评估(programmatic)这两个维度对基于 LLM 的 Chatbots 进行评估。

作者详细探讨了以下几个方面的内容:(1) 质性评估可以通过主观判断和用户打分反馈两种方式进行;(2) 通过程序进行评估现市面上存在多种工具,但也存在固有的主观性问题,评价标准和题库质量能够直接影响评估结果;(3) 作者基于 Legal Tech Bot 项目详细描述了结合上述两种评价方式的具体实践流程。

评估 Chatbots 仍然面临许多挑战,需要不断探索更科学合理的方法。本文分享了作者的实践、探索历程,能够为 Chatbots 相关从业人员后续研究提供参考。

01 我为什么关心 Chatbots 的评估?
目前我正在探索一种能够提升 Chatbots 性能的可靠方法,并试图改进我开发的 Legal Tech Bot[2],以期从该过程中找到适用于更广泛场景的策略。

首先,我要澄清几点。本文的重点是建立在 LLM / GPT 基础上的 Chatbots。当本文提到数据连接(data-connected)时,指的是 Chatbots 能够从我们选择的数据集向 GPT 传递上下文(context)。在我看来,有许多博文可以讨论和研究这种情况。LlamaIndex[3]是用于此目的的热门工具之一。

我之前概述过,我认为 data-supported chatbots 很难处理的四种问题类型[4]包括:

● 需要从数据中提供最新回答的问题;

● 主观性问题;

● 对某一主题或领域的基础性问题或概念性问题;

● 需要将数据中的各种事实或信息进行整合和汇总来回答的问题。 网页链接

暂无评论

暂无评论...