华人研究使LIama 2数学能力得分倍增

1,329 0 0

现有的大模型对齐方法包括基于示例的监督微调（SFT）和基于分数反馈的强化学习（RLHF）。然而，分数只能反应当前回复的好坏程度，并不能明确指出模型的不足之处。相较之下，我们人类通常是从语言反馈中学习并调整自己的行为模式。就像审稿意见不仅仅是一个分数，还包括许多接受或者拒绝的理由。那么，大语言模型能否也像人类一样利用语言反馈来改善自身呢？最近，香港中文大学和腾讯 AI Lab 的研究者们提出了一项名为对比式非似然训练（Contrastive Unlikelihood Learning，CUT）的创新研究，利用语言反馈来对齐语言模型，让模型像人类一样从不同的批评意见中学习成长。CUT 简单有效。仅凭 1317 条语言反馈数据，CUT 就能使 LLaMA2-13b 在 AlpacaEval 上的 win rate 从 1.87% 飙升至 62.56%，击败 175B 的 DaVinci003。更令人兴奋的是，CUT 能像其他 RLHF 框架一样形成探索 -> 批评 -> 改进的反复迭代，其中批评可由自动的评语模型来完成，实现整个系统“自产自评自提升”。作者对 LLaMA2-chat-13b 进行了四轮迭代，将模型在 AlpacaEval 上的性能从 81.09% 逐步提升至 91.36%。相较于基于分数反馈的对齐技术（DPO），CUT 在同等数据规模下表现更佳。此研究揭示了语言反馈在对齐领域所具备的巨大发展潜力，为未来的对齐研究开辟了新的可能。

版权声明：阿里导航发表于 2024-03-09 09:17。
转载请注明：华人研究使LIama 2数学能力得分倍增 | 阿里导航

华人研究使LIama 2数学能力得分倍增

中国培养全球一半顶级AI人才

lnflection-2.5用40%计算量实现近GPT-4性能

相关文章

站内搜索

热门网址