苹果大模型最新论文：AFM 模型多维度评测「出炉」-聚焦吃瓜坊- 关注生活，分享精彩故事

马斯克的Space X卫星被破解，25美元的工具就能入侵终端，篡改运行任意代码，攻击手法已公开

上影节开幕大片“酱园弄”有何特别

胡元军世界夫人大赛集团董事局主席出席第78届戛纳电影节

于谦首档个人社交微综艺今日头条独家开播，《一茶两座》以茶会友畅聊人生哲学

“南京红老头”已被警方抓获

第三届浪潮音乐大赏全阵容官宣蔡健雅、马頔、张亚东、杭盖乐队等齐聚

万元级音响对比，帝瓦雷、b&o A9、多曼尼SPERO24究竟选哪一个？

掌阅科技出品短剧《遮天》定档6月20日！AI技术与实拍画面深度结合

今年将举办50多场演唱会鸟巢放歌引爆双奥场馆新热潮

文泰一性侵案一审宣判获刑3年半于谦首档个人社交微综艺今日头条独家开播，《一茶两座》以茶会友畅聊人生哲学《临江仙》内容热度破万！爱奇艺再造古装爆款当数据脉搏跃动于创意画布：对话制片人肖深匀AI Infra 往事之异构计算篇：吴韧与他的学生们第三届浪潮音乐大赏全阵容官宣蔡健雅、马頔、张亚东、杭盖乐队等齐聚管乐姐姐变身青牛精来萌探“乘风破浪”！《萌探奇遇记》第五期全程高能现实题材生活轻喜剧《蒸蒸日上》开机高叶韩东君“澡堂律所”碰撞烟火气“丹娜丝”进一步减弱中央气象台对其停止编号知名女星石小琳的笔名为什么叫郭缪？第27届上海国际电影节今开幕，与你共享流动光影盛宴世界电影开启“上海时间”鼓楼西文艺沙龙成立素人剧团戏剧爱好者走上舞台展现自我AI Infra 往事之异构计算篇：吴韧与他的学生们刘瑞祺时尚大片曝光 05后赛车手魅力新生电影《风云山林》：从江湖险路到革命征途金鹰卡通卫视《三孩来了3》家庭角色互换，苏醒带娃被“爆改”成芭比娃娃？实测：ChatGPT的翻译能力怎么样？古北水镇官宣“童话古北奇遇嘉年华”，邀您共赴夏日梦幻之约技术为基、文化为骨、商业为帆，7部重磅VR电影在上影节官宣未来影院瞄准文旅市场万亿级蓝海金鹰卡通卫视《三孩来了3》：唐九洲被萌娃盛赞“100块腹肌”，井胧带娃有梗超欢乐网易云音乐升级Beat创作者扶持，全免佣金+超高激励金上线小马宝莉卡生产商卡游：反欺凌卡牌登场，教育新招引关注于谦首档个人社交微综艺今日头条独家开播，《一茶两座》以茶会友畅聊人生哲学北京人艺话剧《张居正》折射时代风云印度北部发生地震首都震感强烈电影《恋曲尘封》今日上映细腻演技诠释动人情感抖音非遗嘉年华亮相成都，用科技为非遗注入新活力她的舞台永不落幕，宋佳谕与时代的共舞李彦宏在百度世界2023：我们即将进入一个AI原生的时代直播电商激活非遗经济：“00后”“90后”撑起消费半壁江山《临江仙》内容热度破万！爱奇艺再造古装爆款声在中国原创MV《梦的港湾》：漂泊终有归处静待梦的花开“丹娜丝”携强降雨继续作用南方北方闷热“上线”山东姑娘王晶夺冠！2025全球旅游文化小姐中国大赛总决赛华美落幕抖音举办“反诈开放日”活动，同步上线首部反诈短剧古北水镇官宣“童话古北奇遇嘉年华”，邀您共赴夏日梦幻之约TikTok正开发仅面向美国用户的独立应用？TikTok回应电影《60/70》苏州金鸡湖畔宣言，打造专属退休女性的电影纪念中国电影诞生120周年艺术展在沪举办中新建交35周年《我们来了》Let's Go China 侨约八桂节目在百色开机录制GAIR 2023 正式开幕：AI 如此绽放之时，昭示着熙春已至《服饰与美容VOGUE》打造度假IP——“VOGUE Vacation”于三亚盛大启幕

苹果大模型最新论文：AFM 模型多维度评测「出炉」

2025-07-11 09:01:58来源：gqx

编译 | 朱可轩

编辑 | 陈彩娴

不久前，苹果苹果在全球开发者大会（WWDC）上推出了最新个人智能系统 Apple Intelligence，大模多维度评可以深度集成到 iOS 18、型最新论iPadOS 18 和 macOS Sequoia 中，模型引起了 AI 业内人士、测出尤其是苹果端侧智能领域的讨论。

苹果在 2024 年的大模多维度评一系列工艺动作，被戏称为苹果为端侧 AI 所设计的型最新论“开卷考试”，即：大模型时代，模型AI 工艺应如何在手机、测出平板等端侧设备上运营，苹果让手机变得更智能？大模多维度评

近日，苹果团队又在 arXiv 上更新了关于 Apple Intelligence 的型最新论最新论文，其中介绍了苹果用在 Apple Intelligence 上的模型两个基础语言模型，包括：一个在设备端运行的测出大约 30 亿参数的语言模型 AFM-on-device，以及一个在私有云端服务上运行的大规模支持器语言模型 AFM-server。

苹果大模型最新论文：AFM 模型多维度评测「出炉」

论文链接：https://arxiv.org/pdf/2407.21075

根据该论文，苹果开发的端侧大模型在语言理解、指令跟随、推理、写作与工具使用等多个任务上都有出色表现。同时，在保护客户信息隐私与保障上，苹果强调在后训练阶段不会使用客户的个人信息进行训练。

结果显示，苹果的 AFM 模型在指令遵循层面皆优于其他大模型，同时，从写作写作能力来看，在摘要总结方面，AFM 模型无论是端侧还是私有云也均要好于其他。而在保障性评估时，AFM 模型也比其他模型要更为负责。但是值得一提的是，AFM 模型的数学能力整体上来看较为一般。

研究发现

人类评估

在人类评估中，在端侧，AFM 仅输于 Llama-3-8B ，而与其他模型相比显然更优。据论文介绍，AFM 与 Phi-3-mini 相比，模型尺寸小了 25%，而胜率达47.7% ，AFM 甚至超出参数数量为两倍多的 Gemma-7B 和 Mistral-7B。而在私有云上，与GPT-3.5相比时，AFM 也具有一定竞争力，胜率超 50%。

苹果大模型最新论文：AFM 模型多维度评测「出炉」

指令遵循

在指令级（Instruction-level）与提示级（Prompt-level）的评估中，无论是端侧还是私有云上，均为 AFM 模型表现最好。其指令级的得分分别为 85.7% 和 88.5%，而提示级的得分则分别为 79.3% 和 83.0%。

此外，苹果还使用了 AlpacaEval 2.0 LC 和 Arena Hard 作为基准进行评估。在私有云上，这两项测试中均为 GPT-4 的表现最优，其中，在 Arena Hard 测试中，GPT-4 的得分甚至倍超 AFM。在端侧的 AlpacaEval 2.0 LC 测试中，则为 Gemma-7B 评分最优，AFM 模型紧随其后。

苹果大模型最新论文：AFM 模型多维度评测「出炉」

工具使用

苹果还测试了在调用工具使用基准测试中 AFM 模型的表现，分别从简单（Simple）、多重（Multiple）、并行（Parallel）、并行多重（Parallel Multiple）、相关性（Relevance）和平均（Average）几个纬度展开。

整体来看，AFM-server 表现较优，从测试结果上来看，在简单、多重、相关性、平均性维度中，AFM-server 均得分最高，分别为91.0、95.5、91.3、89.5。在并行多重维度中，AFM-server 得分 85.0，仅次于 Gemini-1.5-Pro-0514 的 88.0，且领先于 GPT-4 与 GPT-3.5。

但 AFM-on-device 表现则较为一般，在多重、并行多重、相关性及平均维度中，均要稍逊于 GPT-4 和 Gemini-1.5-Pro-0514。除此之外，在并行维度中，AFM-server 和 AFM-on-device 的表现情况则都较为一般。

苹果大模型最新论文：AFM 模型多维度评测「出炉」

写作能力分两块，一块是摘要总结，一块是长作文。其中，AFM 模型主要在摘要总结上表现较好，在端侧的表现优于 Mistral-7B、Gemma-7B、Phi-3-mini 与 Gemma-2B，在私有云上则优于 GPT-4、Mixtral-8x22B、DBRX Instruct 与 GPT-3.5：

苹果大模型最新论文：AFM 模型多维度评测「出炉」

数学能力上，苹果 AFM 模型的表现则一般，仅在端侧 MATH 基准上高于 Llama-3-8B、Phi-3 mini、Gemma-7B 与 Mistral-7B，GSM8k 是 8-shot、MATH 是 4-shot：

苹果大模型最新论文：AFM 模型多维度评测「出炉」

负责任的 AI

在文本摘要总结功能中，苹果团队将 AFM 模型在邮件、信息与通知这三个应用上作了测试，分别从 5 个维度（仇恨言论、歧视、违法、色情、暴力）来评估模型的“好”与“差”。研究显示，苹果的 AFM 模型在“好”维度的表现均高于 Gemma-7B、Phi-3-8B 与 Llama-3-8B：

苹果大模型最新论文：AFM 模型多维度评测「出炉」

保障性评测

在有害输出上，苹果 AFM-on-device 的得分为 7.5%、AFM-server 的得分为 6.3%，得分越低、效果越好，远远高于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B（其余得分均在 10% 以上）：

苹果大模型最新论文：AFM 模型多维度评测「出炉」

在保障提示词上，人类评估，苹果的 AFM-on-device 模型表现优于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B，AFM-server 模型的表现也要远超 GPT-3.5、GPT-4 和 Llama-3-70B：雷峰网(公众号：雷峰网)雷峰网

苹果大模型最新论文：AFM 模型多维度评测「出炉」