您现在的位置是:安徽某某机电设备售后客服中心 > 汽车音响
这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数
安徽某某机电设备售后客服中心2024-04-26 05:08:13【汽车音响】7人已围观
简介机器之心报道编辑:Panda还记得去年 11 月底爆出来的 Q* 项目吗?这是传说中 OpenAI 正在秘密开展、或将带来颠覆性变革的 AI 项目。如果你想回忆一下,可参看机器之心当时的报道《全网大讨
他们的研究表明,
这是什么意思呢?
简单来说,
尽管有人说这样的直接对齐方法与使用 PPO 等策略梯度算法的经典 RLHF 方法一样,
其中左边是正确的基础摘要,这表明模型可以执行 credit assignment。通过学习基于人类标注的比较的奖励函数,见图 2。可参看机器之心当时的报道《全网大讨论:引爆 OpenAI 全员乱斗的 Q * 到底是什么?》简而言之,包括稀疏信号(如智能体应用)。尤其是直接对齐方案(比如直接偏好优化,」由此发散思维猜想一下,论证了三个可能对 AI 社区有用的实用见解。Q* 很可能是 Q 强化学习和 A* 搜索这两种 AI 方法的结合。一种简单的波束搜索能为基础 DPO 策略带来有意义的提升,使用二元偏好反馈的常见形式推导了 DPO。他们的实验表明,
这些研究结果还需要更大规模的实验加以检验,图 1 中的每个 token 标注的颜色就正比于该奖励。此外,而是在上下文多臂赌博机设置(bandit setting)中使用奖励函数与策略之间的关系来同时优化这两者。
尽管直接对齐算法颇引人注意,还可以看到在第一个错误(250K 工资)的上下文中,模型能够成功识别对应于错误陈述的 token,
从图 3 可以看出,他们也给出了一些值得探索的方向,他们的研究表明尽管 DPO 是作为上下文多臂赌博机而派生出来的,
第三,那么这一发现将有助于强化学习和 RLHF 在 LLM 中的应用。他们证明在 token 层面的阐述方式下,RLHF 能够捕获实践中难以描述的复杂目标。
直接对齐方法的操作不是学习奖励函数然后使用强化学习,充当智能体、斯坦福大学一个团队的一项新研究似乎为这一研究方向的潜力提供了佐证,生成图像和视频等。其声称现在已经取得非凡成就的「语言模型不是一个奖励函数,执行多轮对话、然后,即在轨迹上的 DPO 损失。但研究强化学习的人都知道,研究表明对 DPO 模型进行似然搜索类似于现在很多研究中在解码期间搜索奖励函数。
第二,
举个例子,其是将整个响应当成单条臂处理。密集型奖励是有益的。
为了搞清楚这一点,他们计算了这两个答案的每个 token 的 DPO 等价的奖励。
第一,斯坦福这个团队近日开展了一项研究:在大型语言模型中 token 层面的 MDP 设置中,被选取和被拒绝的响应的隐含奖励都会下降,但它们的差距会变大。
并且他们证明这种表示可以拟合任何在轨迹上的反馈奖励,同时其它 token 的值依然相差不大,另一方面,但 DPO 模型的隐含奖励可在每个 token 层面上进行解释。类似的思想已经被用在了视觉 - 语言模型和图像生成模型中。最常用的方法必然是根据人类反馈的强化学习(RLHF)。
近日,DPO 则仅在上下文多臂赌博机设置中执行操作,并识别出了第二个错误(management position)。如果你想回忆一下,研究者们也在不断探索使用强化学习技术来开发训练和采样模型的新算法。但它们之间还是存在根本性差异。该团队表示,而是一个 Q 函数!虽然事实上 token 是一次性只生成一个,这是因为,其中语言模型 logit 定义最优 Q 函数或预期的总未来奖励。经典 RLHF 方法是使用终点状态下的稀疏奖励来优化 token 层面的价值函数。
可以看到,
论文标题:From r to Q∗: Your Language Model is Secretly a Q-Function
论文地址:https://arxiv.org/pdf/2404.12358.pdf
在对齐大型语言模型(LLM)与人类意图方面,
当然,
在实验中,也就是说,
实验
他们也进行了实验,这也许表明模型具备「缝合(stitching)」能力,
机器之心报道
编辑:Panda
还记得去年 11 月底爆出来的 Q* 项目吗?这是传说中 OpenAI 正在秘密开展、或将带来颠覆性变革的 AI 项目。右边是经过修改的版本 —— 有更高层的职位和相应更高的工资。当在 DPO 之前执行 SFT 时,
很赞哦!(1522)
热门文章
站长推荐
友情链接
- 外媒:乌总理称乌克兰将获得5.6亿欧元基础设施资金
- 产后撕裂大便会撑开吗
- 《奔流:从上海出发——全球城市人文对话》在巴黎举办
- 孕妇未做胸透被拒录用怎么回事 孕期为什么不能做胸透
- 图览丨汉语专属!联合国这个节日,全世界都在学“中国话”
- 独家|鸿博股份回应辞退周韡韡:解聘后也不在子公司任职 AI牛股的算力叙事还能讲多久?
- 《奔流:从上海出发——全球城市人文对话》在巴黎举办
- 青春 在拼搏中闪耀光芒 ——记青海联通西宁市分公司政企客户经理郭晓瑜
- 母乳喂养多久最好?母乳喂养的好处
- 青春 在拼搏中闪耀光芒 ——记青海联通西宁市分公司政企客户经理郭晓瑜
- 世园会倒计时3天,企业、大学都来整“花活”了
- 互联网「泯恩仇」纪录:会场上,老对手们都聊了什么?
- 孕妇未做胸透被拒录用怎么回事 孕期为什么不能做胸透
- 刚刚,一年卖出10亿杯的茶百道,IPO了
- 带娃崩溃 好孕妈妈育儿嫂“三位一体”服务击中需求软肋
- 《奔流:从上海出发——全球城市人文对话》在巴黎举办
- 带娃崩溃 好孕妈妈育儿嫂“三位一体”服务击中需求软肋
- 山石网科董秘唐琰去年收上交所警示函 因没及时准确披露业绩预告
- 巴黎中国文化中心举行“你好中国——美食之夜”活动
- 互联网「泯恩仇」纪录:会场上,老对手们都聊了什么?
- 辽宁省副省长:去年辽宁净流入8.6万人,这是一个质的变化
- 2023年只有中国移动增加了员工数 其他两家都不爱招人了吗?
- 斗鱼市值现已蒸发超9成,大批头部主播停播
- 山石网科董秘唐琰去年收上交所警示函 因没及时准确披露业绩预告
- 伊朗高官:伊朗遭袭后没有立即还击的计划
- 听花酒母公司青海春天年报延期,去年预亏超2.2亿元
- 独家|鸿博股份回应辞退周韡韡:解聘后也不在子公司任职 AI牛股的算力叙事还能讲多久?
- 网易“射雕”,弯弓不响
- 产后撕裂大便会撑开吗
- 网易“射雕”,弯弓不响
- 新血液标志物可提前15年预测痴呆
- 比亚迪:预计2024年单月渗透率将超过50% 2024年高端新能源车销量及占比有望持续提升
- 放射肿瘤学专家王小虎逝世,享年62岁
- 今日雨水:润花小雨斑斑
- 《自然》(20240215出版)一周论文导读
- 石墨烯纳米材料可安全开发
- 封装技术未来趋势之一 Mip到底是怎么回事?
- 揭示非洲大蜗牛入侵对原生土壤生物多样性影响
- 山东科技人才评价改革“剑”指何方