推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺-聚焦吃瓜坊- 关注生活，分享精彩故事

阿里与上交大提出 LLM 长文本计算新解法：可处理文本长达 1900k 字节、效率提升 2.4 倍

准备就绪！“光影同辉美美与共”——庆祝中意建交55周年艺术特展即将开幕

苏见信（信）「尽兴而活」成都站巡回演唱会圆满收官苏有朋惊喜助阵引热潮

复古票根背后的魔力——年轻人涌入爷爷奶奶的电影院

国内首个医疗专科推理数据集开源，蚂蚁百灵大模型助力行业落地

小人物的惊天一跃，京产网络剧《漂洋过海来送你》阵容官宣

爱奇艺《喜剧之王单口季2》回归在即，多品牌锁定稀缺广告席位，共赢IP长期复利！

观光巴士如何接住《酱园弄》带来的流量

欧洲理事会主席与伊朗总统通电话讨论冲突解决方案

美图视觉大模型3.0：让设计师做甲方新丽传媒双剧绽放白玉兰：《玫瑰的故事》摘编剧奖，张若昀获海外推广荣誉《睡美人》《胡桃夹子》《天鹅湖》“三颗钻石”同台 “老柴”经典倾倒津城观众爱奇艺《书卷一梦》定档6月26日李一桐刘宇宁上演穿书流强制爱独家｜前百度搜索老将赵世奇从华为离职，回归百度复古票根背后的魔力——年轻人涌入爷爷奶奶的电影院《这是我的西游》历尽试炼万重险，书写不灭西行志中亚影片连续问鼎上海国际电影节引发关注多地官宣：音乐节可在现场领结婚证扣人心弦，交响乐团奏响“跨次元”旋律文脉传承戏韵流芳《国风超有戏音乐会》走进广东新兴县金鹰卡通《三孩来了 3》：唐九洲谈原生家庭，井胧助力萌娃传递爱意老师因学生志愿未报清北解散群聊？校方通报华语歌声越南洋｜《音你而来2》圆满收官：跨文化传播综艺的新范式白玉兰电视论坛透露行业新迹象微短剧从流量狂欢转向价值引领华语歌声越南洋｜《音你而来2》圆满收官：跨文化传播综艺的新范式聚焦AI科技与医疗的跨学科融合，CAIR香港人工智能与机器人医疗论坛开幕北京京剧院汇集强大主创阵容新编现代京剧《野火春风斗古城》8月首演苏见信（信）「尽兴而活」成都站巡回演唱会圆满收官苏有朋惊喜助阵引热潮香港王牌音乐剧内地首秀粤语原创《大状王》登台上海人大 Sora 思辩：Sora 到底懂不懂物理世界？新编现代京剧《野火春风斗古城》八月首演新编现代京剧《野火春风斗古城》八月首演金鹰卡通《三孩来了 3》：唐九洲谈原生家庭，井胧助力萌娃传递爱意体育中考「上难度」，视觉 AI 下场「减负」《酱园弄·悬案》热度高口碑分化故事情节等引发争议爱奇艺《书卷一梦》定档6月26日李一桐刘宇宁上演穿书流强制爱抗战纪录片《苦干》高清修复版在美国首映美图视觉大模型3.0：让设计师做甲方破局与坚守：《非常交易》用诚意叩开暑期档电影新可能世俱杯赛场的保鲜MVP！海信冰箱用黑科技“踢”出保鲜新高度2025汽水音乐x抖音“看见音乐计划”年中论坛：再小的声音，也有山呼海啸《太奶奶》爆火助推李柯以升咖“短剧一姐”，听花岛成大咖制造机观光巴士如何接住《酱园弄》带来的流量热血逆袭+明星顾客+爆笑经营！《微笑一号店》真实展现青年创业的酸甜苦辣咸冠珠瓷砖明星屋主易大千的温暖宅：处处都是热爱2025中国国际大学生时装周✕神州租车潮游旅行大赛获奖作品揭晓阿比亚斯献唱“歌游内蒙古” 北疆文化活动季主题演出李静、刘璇共话新平衡之约学生专属特惠！仅需12元/月畅享爱奇艺《临江仙》《种地吧3》等海量精彩内容苹果发布多模态模型 Ferret萧纤纤获全球国际小姐冠军，闪耀演艺界时尚界

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

2025-07-11 11:52:42来源：xp

2025 年 1 月 20 日 Kimi k1.5 正式发布，推特伴随着工艺报告的热帖公布，有网友表示：“这应该是因为艺高某恋情曝光真相曝光全球范围内，除 OpenAI 之外的作团公司首次实现 o1 正式版的多模态推理性能了吧！”

一时间，项工Kimi k1.5 成了话题王者。推特

但在一个月后的热帖 2 月 24 日，X 上出现了一篇关于 Kimi k1.5 的因为艺工艺爆料帖，博主直言 k1.5 所用到的作团强化学习运算规则，其实是项工借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的工艺。

消息一出，推特高某恋情曝光真相曝光瞬间吸引了数万人关注。热帖

推特热帖：k1.5 很牛，因为艺因为借鉴了 UCLA 与 CMU 合作团队的作团这项工艺

Kimi k1.5 背后的 SPPO 工艺

在这则爆料中，博主 Yue Wu 先是项工对 SPPO 进行了简单解释，并且附上了相关论文（https://arxiv.org/abs/2405.00675），简单来说，SPPO是一种自博弈运算规则，最初的动机来源于刻画广泛意义上的人类偏好，并且使用了如下图所示的平方损失函数：

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

值得一提的是，点开论文链接，你会发现原来 Yue Wu 和 Zhiqing Sun 同为这篇文章的第一作者。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

紧接着，他开始对 SPPO 工艺进行解析：

通过迭代求解上式中的 theta_t，我们可以得到一个与人类偏好对齐良好的语言模型。SPPO 使用胜率（红色部分）作为奖励，并用常数近似基线（蓝色部分）。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

让我们感兴趣的是，我们发现它与 RLHF 目标的策略梯度有着深层的联系：如果我们直接用普通的策略梯度优化 RLHF （人类反馈强化学习）目标会怎样？根据策略梯度定理，策略梯度实际上也具有平方损失形式（蓝色项是策略梯度中的基线）：

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

从数学上，我们证明了 SPPO 的平方损失等价于普通策略梯度的一种半在线变体：

SPPO 中的胜率充当奖励函数（红色部分）。

分区函数项自然地成为（软）值函数（蓝色部分）。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

那么这到底意味着什么呢？

标准策略梯度（PPO、GRPO、REINFORCE）在每一步都收集遵循当前策略的样本。

SPPO 在每次迭代开始时只采样一次，然后通过平方损失进行优化。

这使得 SPPO 成为一种轻量级的 RLHF 方法——无需即时生成！

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

上述分析揭示了大型语言模型（LLM）后训练阶段一个有趣的增长趋势：

离线 DPO（IPO、KTO 等）取代 RLHF（奖励模型 + 强化学习）

迭代 DPO、SPPO 等方法将离线方法转化为在线对齐方法

更加精细的迭代 → 回归到在线强化学习

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

鉴于 GRPO（Deepseek-R1）和平方损失（Kimi k1.5）的成功，端到端强化学习的强大作用愈发凸显，或许在大型语言模型（LLM）后训练阶段无需额外技巧——价值函数、广义优势估计（GAE），甚至梯度裁剪都无需使用。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

另一个简单但有趣的发现是，他们发现 SPPO 暗中在词汇级别优化最优最大熵策略。其平方损失隐含地最小化了学习到的策略与最优词汇级别策略之间的 KL 散度。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

在我们后续的研究 GPO 中，我们直接最小化相对奖励与对数比率之间的平方损失。这两项工作中的平方损失等价于策略梯度，但它是以迭代的方式进行的。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

SPPO 工艺背后的科研大牛

除了提出助力 Kimi k1.5 大获成功的 SPPO 工艺外，Wu Yue 也是一个学术背景很强的科研大牛。他本科期间师从北京大学的王立威教授，博士期间师从加利福尼亚大学洛杉矶分校的顾全全教授，目前以博士后研究员的身份在普林斯顿大学机器智能实验室继续着自己的科研之路。推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

除此之外，2023 年至今他一共参与发布了 9 篇 Paper，其中 3 篇均为第一作者。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

强大的学术背景之外，Wu Yue 的实习经历也非常加分。2022 年至 2024 年，他分别在 NEC 美研院、字节美国 AI lab和 Meta 工作实习。在 NEC 美研院期间，Wu Yue 从事个性化联邦学习研究，并开发了一种基于混合模型的方法，该方法被 ICML 2023 接受发表；在字节美国 AI lab 时，他专注于药品发现领域的多构象生成，将分子动力学的物理先验纳入基于扩散的生成模型，相关成果被 ICML 2024 接受；来到 Meta 后，Wu Yue 又致力于词汇级别奖励建模和新架构设计，用于一般人类偏好和一般偏好优化，为生成式机器智能的增长做出了贡献。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺雷峰网(公众号：雷峰网)还了解到，与他同为第一作者的 Zhiqing Sun ，目前已经从 CMU 毕业，并在今年 2 月加入 OpenAI。