「字少信息量大」,Salesforce、MIT 研究者手把手教 GPT-4「改稿」,数据集已开源通过人类评估实验,研究者发现,当 GPT-4 将「稿子」改到第三版的时候,「信息...
「字少信息量大」,Salesforce、MIT 研究者手把手教 GPT-4「改稿」,数据集已开源
通过人类评估实验,研究者发现,当 GPT-4 将「稿子」改到第三版的时候,「信息密度」和「语言精炼度」两个因素达到了一种最佳平衡状态。
近年来,自动摘要技术取得了长足的进步,这主要归功于范式的转变 —— 从在标注数据集上进行有监督微调转变为使用大语言模型(LLM)进行零样本 prompt,例如 GPT-4。不需要额外的训练,细致的 prompt 就能实现对摘要长度、主题、风格等方面特征的精细控制。
但一个方面常常被忽视:摘要的信息密度。从理论上讲,作为对另一个文本的压缩,摘要应该比源文件更密集,也就是包含更多的信息。考虑到 LLM 解码的高延迟,用更少的字数涵盖更多的信息非常重要,尤其是对于实时应用而言。
然而,信息量密度是一个开放式的问题:如果摘要包含的细节不足,那么相当于没有信息量;如果包含的信息过多,又不增加总长度,就会变得难以理解。要在固定的 token 预算内传递更多信息,就需要将抽象、压缩、融合三者结合起来。
在最近的一项研究中,来自 Salesforce、MIT 等机构的研究者试图通过征求人类对 GPT-4 生成的一组密度越来越高的摘要的偏好来确定这一限制。对于提升 GPT-4 等大语言模型的「表达能力」,这一方法提供了很多启发。
论文链接:arxiv.org/pdf/2309.04269.pdf
数据集地址:huggingface.co/datasets/griffin/chain_of_density
具体来说,他们将每个 token 的平均实体数量作为密度的代表,生成了一个初始的、实体稀少的摘要,然后在不增加总长度(总长度为 5 倍)的情况下,反复识别并融合前一个摘要中缺失的 1-3 个实体,每个摘要的实体与 token 比例都高于前一个摘要。根据人类的偏好数据,作者最终确定,人类更喜欢几乎与人类编写的摘要一样密集的摘要,而且比普通 GPT-4 prompt 生成的摘要更密集。
总体来说,该研究的贡献包括:网页链接
转载请注明:「字少信息量大」,Salesforce、MIT 研究者手把手教 GPT-4「改稿」,数据集已开源通过人类评估实验,研究者发现,当 GPT-4 将「稿子」改到第三版的时候,「信息... | AI 時.空 | AiTime.Space