欧美+日本+国产,欧美大片aaaaa免费观看,欧美日韩一区二区三区视频播放

在 2024 年全球開(kāi)發(fā)者大會(huì)上，蘋(píng)果重磅推出了 apple intelligence，這是一個(gè)全新的個(gè)性化智能系統(tǒng)，可以提供實(shí)用的智能服務(wù)，覆蓋、ipad 和 mac，并深度集成在 ios 18、ipados 18 和 sequoia 中。

庫(kù)克曾經(jīng)表示，Apple Intelligence 是蘋(píng)果創(chuàng)新的新篇章，將改變用戶使用產(chǎn)品的方式。他強(qiáng)調(diào)，蘋(píng)果獨(dú)特的方法結(jié)合了生成式人工智能和用戶的個(gè)人信息，能提供真正有用的智能服務(wù)。此外，Apple Intelligence 能夠以完全私密和安全的方式訪問(wèn)信息，幫助用戶完成對(duì)他們最重要的事情。這是蘋(píng)果獨(dú)有的 AI 體驗(yàn)。

如今，距離 Apple Intelligence 官宣一個(gè)多月過(guò)去了，這項(xiàng)技術(shù)終于落地智能設(shè)備，相關(guān)技術(shù)文檔也終于放出。

在剛剛過(guò)去的一天，擁有 iPhone 15 Pro 或 iPhone 15 Pro Max 的用戶可以下載 iOS 18.1 開(kāi)發(fā)測(cè)試版，并可以體驗(yàn) Apple Intelligence 的功能了。

隨著這篇長(zhǎng)達(dá) 47 頁(yè)技術(shù)報(bào)告的出爐，我們可以更加深入的了解 Apple Intelligence 背后的秘密武器。

揭秘！47頁(yè)文檔拆解蘋(píng)果智能，從架構(gòu)、數(shù)據(jù)到訓(xùn)練和優(yōu)化

報(bào)告地址：https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

報(bào)告詳細(xì)介紹了其中兩款模型 ——AFM-on-device，AFM 代表 Apple Foundation Model，是一個(gè)約 30 億參數(shù)的語(yǔ)言模型，以及一個(gè)更大的基于服務(wù)器的語(yǔ)言模型 AFM-server，可以高效、準(zhǔn)確和負(fù)責(zé)地執(zhí)行專門的任務(wù)（圖 1）。

這兩個(gè)基礎(chǔ)模型作為蘋(píng)果更大的生成模型系列的一部分存在。

揭秘！47頁(yè)文檔拆解蘋(píng)果智能，從架構(gòu)、數(shù)據(jù)到訓(xùn)練和優(yōu)化

架構(gòu)及訓(xùn)練

AFM 基礎(chǔ)模型是基于 Transformer 架構(gòu)構(gòu)建的密集解碼器模型，采用如下設(shè)計(jì)：

共享輸入 / 輸出嵌入矩陣，以減少用于參數(shù)的內(nèi)存使用。
使用 RMSNorm 進(jìn)行預(yù)歸一化以提高訓(xùn)練穩(wěn)定性。
查詢 / 鍵歸一化以提高訓(xùn)練穩(wěn)定性。
具有 8 個(gè)鍵值頭的分組查詢注意力（GQA），以減少 KV 緩存。
SwiGLU 激活，以提高效率。
RoPE 位置嵌入，基頻（base frequency）設(shè)置為 500k，以支持長(zhǎng)上下文。

揭秘！47頁(yè)文檔拆解蘋(píng)果智能，從架構(gòu)、數(shù)據(jù)到訓(xùn)練和優(yōu)化

AFM 預(yù)訓(xùn)練過(guò)程在開(kāi)發(fā)高性能語(yǔ)言模型，以支持一系列 Apple Intelligence 功能方面發(fā)揮著關(guān)鍵作用。研究團(tuán)隊(duì)注重效率和數(shù)據(jù)質(zhì)量，以獲得高質(zhì)量的端到端用戶體驗(yàn)。

在后訓(xùn)練方面，研究團(tuán)隊(duì)發(fā)現(xiàn)改進(jìn)通用后訓(xùn)練可以提升 Apple Intelligence 所有功能的性能，因?yàn)槟Ｐ驮谧裱噶?、推理和?xiě)作方面會(huì)具有更強(qiáng)的能力。

為了確保這些模型功能符合蘋(píng)果對(duì)保護(hù)用戶隱私的承諾，以及蘋(píng)果的 Responsible AI 原則，后訓(xùn)練工作包括一系列數(shù)據(jù)收集和生成、指令調(diào)整和對(duì)齊創(chuàng)新。后訓(xùn)練過(guò)程包含兩個(gè)階段：監(jiān)督微調(diào)（SFT）和來(lái)自人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）。研究團(tuán)隊(duì)提出了兩種新的后訓(xùn)練算法：（1）帶有 teacher committee（iTeC）的拒絕采樣微調(diào)算法，以及（2）一種用于強(qiáng)化學(xué)習(xí)迭代的 RLHF 算法，帶有鏡像下降策略優(yōu)化（mirror descent policy optimization）和留一法優(yōu)勢(shì)估計(jì)器（leave-one-out advantage estimator）（MDLOO），使得模型質(zhì)量顯著提高。

Apple Intelligence特性

基礎(chǔ)模型是為 Apple Intelligence 專門設(shè)計(jì)的，這是一個(gè)支持 iPhone、iPad 和 Mac 的個(gè)人智能系統(tǒng)。

蘋(píng)果發(fā)現(xiàn)，針對(duì)特定任務(wù)的微調(diào)，他們可以將小模型的性能提升到一流水平，除此以外，他們還開(kāi)發(fā)了一種基于運(yùn)行時(shí)可交換適配器（runtime-swappable adapters）的架構(gòu)，使單一基礎(chǔ)模型能夠?qū)ｉT用于數(shù)十個(gè)此類任務(wù)。圖 2 顯示了高級(jí)概述。

揭秘！47頁(yè)文檔拆解蘋(píng)果智能，從架構(gòu)、數(shù)據(jù)到訓(xùn)練和優(yōu)化

適配器架構(gòu)

蘋(píng)果使用 LoRA 適配器來(lái)針對(duì)特定任務(wù)進(jìn)行模型微調(diào)。對(duì)于每項(xiàng)任務(wù)，研究者會(huì)調(diào)整 AFM 自注意力層中的所有線性投影矩陣以及逐點(diǎn)前饋網(wǎng)絡(luò)中的全連接層。僅通過(guò)微調(diào)適配器，基礎(chǔ)預(yù)訓(xùn)練模型的原始參數(shù)保持不變，可以保留模型的一般知識(shí)，同時(shí)定制適配器以支持特定任務(wù)。

量化

為了將 AFM 納入內(nèi)存預(yù)算有限的邊緣設(shè)備并降低推理成本，需要考慮量化技術(shù)。先前的研究發(fā)現(xiàn)，與原始的 32/16 位浮點(diǎn)相比，經(jīng)過(guò) 4 位量化的模型損失會(huì)很小。

為了在模型容量和推理性能之間實(shí)現(xiàn)最佳平衡，蘋(píng)果開(kāi)發(fā)了最先進(jìn)的量化方法和利用準(zhǔn)確率 – 恢復(fù)適配器（accuracy-recovery adapters）的框架。使得模型在每個(gè)權(quán)重平均小于 4 位的情況下，還能實(shí)現(xiàn)近乎無(wú)損的量化，并提供靈活的量化方案選擇。

方法

經(jīng)過(guò)后訓(xùn)練，模型被壓縮和量化，得到平均低于 4 位的權(quán)重。量化模型通常表現(xiàn)出中等程度的質(zhì)量損失。因此，蘋(píng)果不會(huì)將量化后的模型直接用于功能開(kāi)發(fā)，而是附加一組參數(shù)高效的 LoRA 適配器以進(jìn)行質(zhì)量恢復(fù)。

值得注意的是，訓(xùn)練準(zhǔn)確率 – 恢復(fù)適配器具有樣本效率，可以看作是訓(xùn)練基礎(chǔ)模型的迷你版本。在適配器的預(yù)訓(xùn)練階段，只需要大約 100 億個(gè) token（約占基礎(chǔ)模型訓(xùn)練的 0.15%）即可完全恢復(fù)量化模型的能力。

由于應(yīng)用程序適配器將從這些準(zhǔn)確率 – 恢復(fù)適配器微調(diào)而來(lái)，因此它們不會(huì)產(chǎn)生任何額外的內(nèi)存使用或推理成本。關(guān)于適配器大小，蘋(píng)果發(fā)現(xiàn)適配器秩為 16 時(shí)提供了模型容量和推理性能之間的最佳權(quán)衡。

但是，為了靈活性，蘋(píng)果提供了一套具有不同秩 {8、16、32} 的準(zhǔn)確率 – 恢復(fù)適配器供應(yīng)用程序團(tuán)隊(duì)選擇。

混合精度量化

AFM 中的每個(gè) transformer 塊和每個(gè)層都存在殘差連接。因此，所有層都具有同等重要性的可能性不大。根據(jù)這一直覺(jué)，蘋(píng)果通過(guò)推動(dòng)某些層使用 2 位量化（默認(rèn)為 4 位）來(lái)進(jìn)一步減少內(nèi)存使用量。平均而言，AFM-on-device 可以壓縮到每個(gè)權(quán)重僅約 3.5 位 (bpw)，而不會(huì)造成顯著的質(zhì)量損失。

評(píng)估

研究團(tuán)隊(duì)使用常見(jiàn)的開(kāi)源評(píng)估工具和基準(zhǔn)來(lái)評(píng)估 AFM 預(yù)訓(xùn)練模型。表 2 展示了在 HELM MMLU v1.5.0 上 AFM-on-device 和 AFM-server 的結(jié)果。

揭秘！47頁(yè)文檔拆解蘋(píng)果智能，從架構(gòu)、數(shù)據(jù)到訓(xùn)練和優(yōu)化

這些基準(zhǔn)測(cè)試表明，AFM 預(yù)訓(xùn)練模型具有強(qiáng)大的語(yǔ)言和推理能力，為后訓(xùn)練和特征微調(diào)提供了堅(jiān)實(shí)的基礎(chǔ)。

揭秘！47頁(yè)文檔拆解蘋(píng)果智能，從架構(gòu)、數(shù)據(jù)到訓(xùn)練和優(yōu)化

AFM 與開(kāi)源模型（Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct）和商業(yè)模型（GPT3.5 和 GPT-4）的比較結(jié)果如下圖3所示。與其他模型相比，AFM 模型更受人類評(píng)估人員的青睞。特別是，AFM-on-device 與 Phi-3-mini 相比，盡管模型規(guī)模小了 25%，但仍獲得了 47.7% 的勝率，甚至優(yōu)于開(kāi)源強(qiáng)基線 Gemma-7B 和 Mistral-7B。

揭秘！47頁(yè)文檔拆解蘋(píng)果智能，從架構(gòu)、數(shù)據(jù)到訓(xùn)練和優(yōu)化

為了衡量模型生成響應(yīng)遵循提示中指令的能力，研究團(tuán)隊(duì)在 IFEval 基準(zhǔn)上評(píng)估了 AFM-on-device 和 AFM-server，結(jié)果如下圖 4 所示：

揭秘！47頁(yè)文檔拆解蘋(píng)果智能，從架構(gòu)、數(shù)據(jù)到訓(xùn)練和優(yōu)化

如圖 5 所示，AFM-server 實(shí)現(xiàn)了最佳的整體準(zhǔn)確率，優(yōu)于 Gemini-1.5-Pro-Preview-0514 和 GPT-4。

揭秘！47頁(yè)文檔拆解蘋(píng)果智能，從架構(gòu)、數(shù)據(jù)到訓(xùn)練和優(yōu)化

蘋(píng)果將 AFM 與一些最出色的模型以及規(guī)模較小的開(kāi)源模型進(jìn)行了比較。如圖 6 所示，與 Gemma-7B 和 Mistral-7B 相比，AFM-on-device 可以實(shí)現(xiàn)相當(dāng)或更好的性能。AFM-server 的性能明顯優(yōu)于 DBRX-Instruct 和 GPT3.5，并且與 GPT4 相當(dāng)。

揭秘！47頁(yè)文檔拆解蘋(píng)果智能，從架構(gòu)、數(shù)據(jù)到訓(xùn)練和優(yōu)化

圖 7 比較了經(jīng)過(guò)后訓(xùn)練的 AFM 在數(shù)學(xué)基準(zhǔn)上的表現(xiàn)。結(jié)果發(fā)現(xiàn)，AFM-on-device 的性能明顯優(yōu)于 Mistral-7B 和 Gemma-7B，即使規(guī)模不到它們的一半。

揭秘！47頁(yè)文檔拆解蘋(píng)果智能，從架構(gòu)、數(shù)據(jù)到訓(xùn)練和優(yōu)化