比台式机处理器还强：这颗锐龙神U AI MAX+395是真的猛_CPU

锐龙AI MAX+395处理器上市之后获得相当不错的反响，超大统一内存加上可变显存，以及处理器本身就相当不错的计算能力，使得这个移动级计算平台在某些方面甚至超过了桌面级处理器，最近我们终于拿到了搭载AMD锐龙AI Max+ 395处理器的产品，一番测试下来，我们终于搞懂了它为何能够带来完全不一样的性能体验。

比台式机处理器还强：这颗锐龙神U是真的猛

锐龙AI Max+ 395是锐龙AI Max+系列的顶配型号，原生16颗超大核心32线程设计，最高加速频率5.1GHz，总缓存高达80MB，NPU峰值AI算力为50TOPS，cTDP为45-120W，集成40个图形核心的Radeon 8060S iGPU，并且支持高达128GB容量的LPDDR5x 8000高速统一内存。下面咱们看看它的性能表现。

比台式机处理器还强：这颗锐龙神U是真的猛

首先参考CINEBENCH R23和2024测试，锐龙AI Max+ 395处理器在R23测试标准下，单核得分1985，多核得分36648；2024标准下单核得分113，多核得分1752，整体性能表现非常出色，甚至可以探到移动端HX级别处理器的性能水准。

因此锐龙AI Max+ 395并非“AI偏科生”，而是有着极其扎实的单核和多核性能实力。

比台式机处理器还强：这颗锐龙神U是真的猛

通过AIDA 64 FPU CPU单烤机测试可见，这颗处理器的长时稳定功耗释放可以保持在103W附近，平均核心温度99.1℃，3分钟以内的短时功耗释放甚至可以达到120W。

比台式机处理器还强：这颗锐龙神U是真的猛

锐龙AI Max+ 395之所以能够胜任70B大模型运行，很重要的一点是它采用了128GB统一内存，并且可以将一部分内存容量分配给Radeon 8060S iGPU，而且最高可以分配96GB容量。这使得集成显卡也能通过超大显存顺利运行大参数量的大语言模型。

同时，统一内存的优势在于读写与拷贝速度更快，通过AIDA 64内存性能测试可以看到，其读取速度高达119.34GB/s，写入速度高达210.1GB/s，拷贝速度高达153.49GB/s。

比台式机处理器还强：这颗锐龙神U是真的猛

锐龙AI Max+ 395之所以能够胜任大参数量AI大模型的需求，很重要的原因在于它集成的Radeon 8060S iGPU，这颗GPU在集成显卡中可以说是超模的存在。

它拥有2560个流处理器，64GB LPDDR5显存，128GB/s显存带宽，核心频率高达2900MHz，显存频率1000MHz，比当前任何一款集成显卡的性能都要强很多。

比台式机处理器还强：这颗锐龙神U是真的猛

参考3DMark各项测试可以看到，Radeon 8060S iGPU在Speed Way DX12性能方面得分达到了2025，远超其它集成显卡的性能。Port Royal光追性能达到了5884分，基本达到了RTX 4060独显的水平（5957分左右）。而Time Spy以及Fire Strike图形分也分别达到了11498和30713分，作为集成显卡，它的理论图形性能其实达到甚至超越了RTX 4060独显的水平，着实让人感到惊艳。

比台式机处理器还强：这颗锐龙神U是真的猛

锐龙AI Max+ 395除了在AI应用方面有优势之外，日常生产力、游戏等应用方面也完全不瘸腿。

7-Zip压缩与解压缩测试中，锐龙AI Max+ 395处理器得益于16颗超大核心32线程设计，压缩速度达到了150617KB/s，解压缩速度达到了2063057KB/s，总评分高达177.76GIPS，是目前移动级处理器中T0级别的性能水准。

比台式机处理器还强：这颗锐龙神U是真的猛

视频编码方面，x264 Benchmark实测编码2500帧的帧速率为77.31fps，完成时间为32秒，相对于HX系列的处理器要略慢一些。

比台式机处理器还强：这颗锐龙神U是真的猛

渲染方面，V-Ray Bencmark 1分钟采样率达到38813 vsamples；Corona Benchmark渲染速度达到了11248700Rays/sec，渲染用时仅43秒。

比台式机处理器还强：这颗锐龙神U是真的猛

总体来说，锐龙AI Max+ 395处理器在压缩、解压缩以及物理渲染方面有着远高于其它移动端处理器的性能表现，而视频编码能力满足生产力需求也是不成问题的。

接下来再看看Radeon 8060S iGPU相关的应用性能。

首先是V-Ray Benchmark的加速测试，1分钟渲染速度达到了1812 vpaths，在集成显卡中鹤立鸡群。

比台式机处理器还强：这颗锐龙神U是真的猛

Blender benchmark的表现同样出色，monster、junkshop、classroom三项渲染采样率分别达到560.23、199.86以及252.34 samples/min，同样远超当前其它集成显卡的性能。

比台式机处理器还强：这颗锐龙神U是真的猛

生产力应用性能我们参考UL Procyon的照片编辑和视频编辑测试，二者评分分别达到了8955和22765分，可以相当轻松地胜任RAW格式原片处理，并且在2K、4K视频剪辑上也能提供极为出色的性能支持。

比台式机处理器还强：这颗锐龙神U是真的猛

目前，搭载AMD锐龙AI Max+ 395处理器的产品主要是笔记本与迷你电脑，价格在13999元到20000多不等，对于大众用户这个价格不便宜，但是如果将它与动辄数万、数十万元的AI一体机来做对比的话，这款机器可以说是目前成本相当低的AI学习、开发、应用平台，对初步上手AI的人群来说非常适合。

了解AI的朋友都知道，显存和内存在AI应用中非常重要，Radeon 8060S虽然图形性能极为出色，但其显存也不过就是6GB，应对AI大语言模型的应用需求有点捉襟见肘。不过通过AMD独特的统一内存技术，在AMD软件控制中心，我们可以将其128GB内存分配给集成显卡作显存，最高可以分配96GB，这样就可以承担起大参数量大语言模型的应用需求了。

比台式机处理器还强：这颗锐龙神U是真的猛

在AI应用测试之前，我们先来看看锐龙AI Max+ 395处理器的CPU、GPU以及NPU三大AI计算单元的算力表现。参考UL Procyon的CPU Integer、GPU Float 16以及NPU Integer测试，三项评分分别为248、987以及1783分，相对此前的锐龙8040系列的处理器来说，锐龙AI Max+ 395处理器的CPU AI算力提升不算太大，但GPU和NPUAI算力提升幅度基本都超过了3倍！

比台式机处理器还强：这颗锐龙神U是真的猛

理论性能了解之后，我们看看锐龙AI Max+ 395在实际AI应用中的表现。

首先通过UL Procyon测试了Phi-3.5 4B、Mistral 7B、Llama 3.1 8B以及Llama 2 13B四款经典大语言模型，生成速度分别达到了69.56 tokens/s、44.87 tokens/s、38.01 tokens/s以及25.45 tokens/s，速度非常快。另外值得一提的是，即便是RTX 5060笔记本电脑GPU，因为其作为独立显卡也只有可怜的8GB显存，所以也无法正常运行参数量较大的Llama 2大模型，而Radeon 8060S不仅成功运行，且生成速度能够达到25.45 tokens/s，日常应用完全没有问题。此时，锐龙AI Max+ 395平台的独特优势就彻底显现出来了。

比台式机处理器还强：这颗锐龙神U是真的猛

接下来我们通过LM Studio进行了15B及以下小参数量大语言模型和22B及以上大参数量大语言模型的测试。

比台式机处理器还强：这颗锐龙神U是真的猛

首先在各类小参数量稠密大模型测试中可以看到，锐龙AI Max+ 395表现非常出色，凭借内存分配带来的超大显存支持，即便是遇到BF16高精度的Mistral-small 24B以及Gemma 2 27B大模型，生成速度也分别达到了12.37 tokens/s和11.62 tokens/s，表现出色。而对于更高性能的DeepSeek R1 14B、Phi-4 15B，速度也能达到19.63 tokens/s和12.24 tokens/s；低精度的DeepSeek R1 7B生成速度更是达到了41.94 tokens/s，而DeepSeek R1 1.5B则达到了92.67 tokens/s，可见在面对小参数量大模型时，锐龙AI Max+ 395无论是面对高精度模型还是低精度模型，都能提供足够快的生成速度。

比台式机处理器还强：这颗锐龙神U是真的猛

在面对大参数量大语言模型时，其实首要解决的问题不是能不能使用大模型，而是能不能正常加载大模型。就比如RTX 5060笔记本电脑GPU，虽然其性能比Radeon 8060S要强，但如果大模型参数量较大，前者大概率也过不了加载这一关，更别提进一步应用了。

从下图可以看到，我们在加载Qwen3-235B-A22B-IQ2_S的MoE混合大模型时，内存峰值占用高达63.6GB，如果没有128GB超大内存支持的话，加载这一关就过不了。

比台式机处理器还强：这颗锐龙神U是真的猛

在各类大参数量大语言模型测试中，Qwen3-235B-A22B-IQ2_SMoE模型生成速度达到了14.72 tokens/s，表现出色；DeepSeek IQ2_M、DeepSeek R1 Distill Llama 70B大参数量稠密模型也能够正常运行，并且可以达到4.91 tokens/s和5.31 tokens/s的生成速度。而Q4量化版本的DeepSeek R1 Qwen 32B蒸馏模型以及QWQ 32B大模型生成速度分别可以达到9.71 tokens/s和9.79 tokens/s的生成速度。

比台式机处理器还强：这颗锐龙神U是真的猛

另外这里要说明的一点是，Qwen3-235B-A22B-IQ2_S这个模型虽然参数量达到了235B，但它并非是常见的稠密模型，而是MoE（Mixture of experts）混合专家模型。简单来说，MoE模型虽然总参数量很大，但以Qwen3-235B-A22B-IQ2_S模型为例，它虽然拥有235B总参数量，但运行时实际只会调用22B（模型中A22B标识就表示运行时只会调用22B参数量）的参数进行计算，因此对于硬件的压力要小很多。

也正是因为有着这种大参数、低算力特性，MoE模型或许会成为未来大模型发展的主流趋势。

反之，稠密模型每一次计算都会调用所有参数，这也就是为什么235B的Qwen3-235B-A22B-IQ2_S生成速度反而比DeepSeek R1 32B、QWQ 32B大模型要快的原因。

AI测试的最后一部分，我们使用了针对AMD锐龙平台打造的Amuse这款Stable Diffusion工具，它支持文生图、图生图、文生视频等应用，使用起来非常方便。

首先我们使用最近大半年非常火爆的FLUX.1-Dev模型进行了文生图测试，实测迭代10步，生成一张1024 x 1024超清图片用时234.3秒。这个表现虽然不如独显，但在集成显卡里，能顺利完成这一任务的此前没有，Radeon 8060S不仅顺利完成，而且效率也还不错，毕竟1024×1024规格的图片生成，在AI文生图应用中算是高负载任务了。

比台式机处理器还强：这颗锐龙神U是真的猛

其次我们使用了Stable Diffusion XL Turbo模型，进行了2048x2048规格图片的生成。这款大模型整体精度要低一些，所以对硬件负载的压力不算太高。普通用户使用这类大模型进行文生图就足够了，没必要使用FLUX.1-Dev这种超高精度大模型。

可以看到，Stable Diffusion XL Turbo模型生成2048x2048规格图片耗时仅需12.8秒，每秒迭代次数也达到了2.6次。

比台式机处理器还强：这颗锐龙神U是真的猛

总体来说，锐龙AI Max+ 395是非常不错的AI计算平台，配合大内存并通过AMD统一内存技术分配给显存之后，常规的AI应用基本没有太大压力，完全可以作为个人或者小型工作室、小型企业用户的AI终端设备。

尤其相比动辄数万、数十万元的AI一体机来说，它绝对是一个高性价比的解决方案。

本文固定链接: https://x86android.com/articles/63523.html
转载请注明: zhiyongz 2025年08月20日于安卓中文站发表

作者：zhiyongz

安卓中文站站点 QQ交谈

比台式机处理器还强：这颗锐龙神U AI MAX+395是真的猛

您可能还会对这些文章感兴趣！

《本文》有 0 条评论

留下一个回复取消回复

您可能还会对这些文章感兴趣！

《本文》有 0 条评论

留下一个回复 取消回复

留下一个回复取消回复