巴蜀网

 找回密码
 免费注册

QQ登录

只需一步,快速开始

开启左侧
查看: 199|回复: 0
 大洪河 发表于: 2023-4-25 08:44:00|显示全部楼层|阅读模式

[2023年] 【Ai时刻】NVIDIA显卡Ai算力大比拼,想画Ai女友该怎么选?

 [复制链接]
源自:太平洋电脑
  最近的Ai圈可以说是太火了,前段时间我们编辑部去参加了中国电子博览会,其中绝大部分的展商都是来自高性能服务器的品牌,我们有幸还对其中一家品牌进行了采访:《亿万克丨助力节能数据中心建设;打造云端数字底座!》。
  在探展的过程中,深感如今的Ai算力市场的空前热度,随着GPT的爆火,每个企业、组织、个人都看到了利用Ai来提升生产效率的可能,这其中,以Ai绘画为代表正在快速席卷着设计、绘画、动漫行业,个人用户也可以通过stablediffusion等引擎来训练自己的Ai人物形象或者设计物品。而stablediffusion依赖的正是本地显卡算力,所以如果想要拥有快速、精准的Ai图像生成,一张算力强劲的显卡是必不可少的。
bf82-8100ffca4a67b614bba29affd7ec6247.jpg
  最近,RTX4070发布,早就听闻RTX40系在Ai算力上的提升,所以问DIY大佬借了20系到40系的主流显卡,来让它们华山论剑,看看谁在Ai绘画上的能力更强。
9867-09b6aa69d2366724863aebe79ecacc1a.jpg
c3f6-97327b3c98c258c91fc48f5962c36f71.jpg
  Ai作品
  首先介绍一下出战的选手们,老当益壮组的20系显卡:RTX2070、RTX2070S、RTX2080。正值壮年的30系显卡:RTX3050、RTX306012GB、RTX3060Ti、RTX3070、RTX3070Ti、RTX3080、RTX3080Ti、RTX3090Ti。青春无限的40系显卡:RTX4070、RTX4070Ti、RTX4080、RTX4090。
7b0c-7b7b84c79542b3007d6505e29a862f9e.jpg
  赛前首先是选手们的身份信息大公布:
4fe6-7ef271481d2f457eea2e533167fa02e6.jpg
  对于本次的Ai绘画能力对决,区别选手们的主要点是显卡的架构、CUDA核心数量、显存与Tensor核心。其中Tensor核心是NVIDIA部分显卡中专门用于加速深度学习任务的处理单元。Tensor核心针对深度学习中的矩阵运算进行了优化,能够显著提高神经网络模型的训练和推理速度。在后续的对比中,我们也能看出Tensor核心的代数与核心数与成绩的关系。
  第一代Tensor核心首次出现在Volta架构显卡中,针对混合精度矩阵乘法进行优化。第二代Tensor核心引入Turing架构显卡,增加了对INT8和INT4整数精度的支持,并引入了RT核心用于实时光线追踪计算。第三代Tensor核心出现在Ampere架构显卡,提高了FP16混合精度矩阵乘法的FLOPs,并支持稀疏性计算。
  而第四代Tensor核心随着RTX40系的发布而更新,在全新的NVIDIAAda架构中,通过引入DLSS技术和OpticalFlowAccelerator等新技术,为Ai提供了显著的性能提升。并通过TensorCores加速器(专门用于深度学习任务的硬件加速器)大幅提高深度学习模型训练和推理性能,并且支持FP16、BF16和TF32精度。此外,AdaGPU架构还支持CUDA-XAI软件库,这是一套用于加速AI应用的软件工具包。CUDA-XAI包括TensorRT、cuDNN、cuBLAS等组件,可以提高深度学习推理性能和训练速度。
53b6-606a3ade5fd7b677c322d42d52b7a84c.jpg
d0be-02e84b8d351b99e51a0fdfe9dbbf5ae7.jpg
  好的,简单介绍完参战选手们的基本信息,就来到本次比赛的第一关,基础性能参数对比,将由“AIDA64GPGPU”考官出题,考察选手们的综合实力。想看Ai美女的观众先别急,先放出一张美女垫胃口。
8c9c-d75524cb0a3cb8641510469e87ac85ca.jpg
  stablediffusionAi绘画;来自RTX2080显卡,1024×1024分辨率,单张耗时:1.14分钟
  第一道题是Single-Precision,这个测试项目评估显卡在单精度浮点数运算(32位浮点数)上的性能,单精度浮点数通常用于表示小数,以GFLOPS为单位,其表示每秒千亿次浮点运算。
5fe4-cd9e85cc67e95ee19e2423f49bcfcb14.jpg
  第二道题是Double-Precision,评估显卡处理另一种称为双精度浮点数的数据时的计算能力。双精度浮点数比单精度浮点数更精确,常用于科学计算等要求高精度的场景。以GFLOPS为单位,其表示每秒千亿次浮点运算。
c26b-c8696ede0ae0eca136c17f3b21c4edcc.jpg
  第三道题是24-BitInteger,这个测试项目评估显卡在24位整数运算上的性能。整数是没有小数部分的数字,如1、2、3等。以GFLOPS为单位,其表示每秒千亿次浮点运算。IOPS表示每秒整数运算次数,GIOPS表示每秒千亿次整数运算(GigaIOPS),以GIOPS为单位。
5b15-823f804bf33f700a5622004c1bd93313.jpg
  第四道题和第五道题分别是32-BitInteger、64-BitInteger,聪明的小伙伴都知道这是跟上面24-BitInteger是一组组合题,考察显卡32位整数运算、64位整数运算能力。
d28d-4dc7749b43ed9bb8114d8e2bfe6a2d2f.jpg
  第六题是AES-256计算能力,评估显卡处理一种名为AES-256的加密任务时的性能。加密是为了保护数据安全而对数据进行编码的过程。
17b2-88ef78c1131e19b66d3867bdc046b182.jpg
  第七题是SHA-1Hash编码能力,这个可能很多玩家都比较熟悉,这就是挖矿佬喜欢的哈希算力,哈希算法是一种将数据转换成固定长度的唯一字符串的过程,通常用于校验数据完整性和安全应用,常用于区块链应用中。
b7ba-0c54b3cdb12ba6196fa5631bf1872397.jpg
  第八题是Single-Precisionjulia,这个测试项目评估显卡在渲染单精度Julia分形图像时的性能。Julia分形是一种复杂数学对象,需要大量计算资源进行渲染。测试结果以FPS表示。
505f-4a0f5552ae16edb28372f3027100b05d.jpg
  最后一题便是Double-PrecisionMandel;双精度Mandelbrot分形渲染,评估显卡渲染一种名为Mandelbrot分形的复杂数学图形时的性能。类似于Julia分形渲染,但使用更高精度的数据进行计算。
4295-2adc31b9469f71a5c08b2a92521e10a1.jpg
  对于AIDA64GPGPU的测试,我们可以看出,除了顶级的RTX4090外,剩下显卡之间都存在着明显的递进关系,等级森严,与售价与定位严格挂钩,此外,数据测试仅能作为Ai制图的一个参考项目,旨在对比不同显卡之间的数据。
b7b1-bf1892865d330720bcb78729d7651f5f.jpg
  参战选手的首发价格对比
  接下来就进入正式的Ai绘画环节,首先是画NVIDIA官方指定的小房子,看看效果。画图的参数是:使用v2-1768-emapruned模型;768×768的尺寸;Steps:50;CFGscale:7.5,共画10组,每组2张。
cadc-4ba4e916932ad8ba35b7decc83405158.jpg
  Ai作品
49be-06e43502d9b687d50c5c2f283aa9b574.jpg
  Ai作品
2c26-ef203d263c72b05cfa3c291f2e62740a.jpg
  从测试结果来看,各位参战选手的Ai绘画表现与他们在AIDA64GPGPU中的各项考试表现类似,柱状图的分布几乎一致,其中低于5张/min的选手有RTX2070、RTX3050、RTX3060,虽然RTX3060配有12GB的大显存,但在Ai画图所需要的高算力面前还是只能甘拜下风,112核心的第三代Tensor没能让它在Ai画图中继续“甜品”下去。
  而超过了优秀水平10张/min的选手就比较多了,RTX3080Ti、RTX3090Ti、RTX4070Ti、RTX4080、RTX4090,以及两个9张/min的差点成为优秀水平的RTX3080和RTX4070,这两位选手的用时几乎一致,但RTX4070只搭载了184核心的第四代Tensor,而RTX3080则是使用了272核心的第三代Tensor,这33%的核心数差距,就是通过技术迭代来弥补的。
  接下来看一下选手们在画NVIDIA小屋时的显存占用情况,为了方便比赛公平起见,我们按照显存容量进行了分组:
254a-8ad56522035ac2d14cd56d4f64aeeb94.jpg
  8GB显存组
36fc-80afb532b6ec65ff613c520a0096161e.jpg
  12GB显存组
8ae1-bb3f68b8c3db214a8d123de089de5f53.jpg
  其他显存组
41ed-37a0942e94d451f786165659d1e1804e.jpg
  整体表现情况
  通过图表与数据情况可知,在画NVIDIA小屋的时候,面对768×768分辨率的Ai画图情况,显卡的显存普遍占用都在8GB左右,如果只是搭载了8GB显存的显卡,就会有跑满的风险,从而拖累运算速度。
  接下来就是大家期待的画Ai小姐姐,在画小姐姐的选择上,我们使用了chilloutmixNiPrunedFp32Fix模型,匹配3个不同的LORA人体素材库,调整了各素材的比重,最终绘制出独一无二的小姐姐,单幅尺寸为1024×1024,一组5张。
  首先来欣赏一下小姐姐的美貌:
3f30-f5889aa856003a0361c873f08ce72b0e.jpg
1c2d-7079d91c2ae29fc216ce3ec4a2b12458.jpg
  stablediffusionAi绘画
05c7-719ad06dc09f492f8899ba317a5ff85e.jpg
  stablediffusionAi绘画
1cc7-c3fd215e78bcce603e39eecf56757ec2.jpg
  stablediffusionAi绘画
f272-bbaf704b87f8da87a52721ca2d231c9e.jpg
  stablediffusionAi绘画
51c5-c99f5659be2ec5e86ca8d3231c9c50bf.jpg
  stablediffusionAi绘画
d7c3-0bb2b3ebe3fbd991bc452dc7ff263bcd.jpg
  具体的Prompt以及模型配置如图,喜欢的小伙伴可以直接Copy,把小姐姐带回家
  由于画小姐姐的模型和配置以及尺寸较大,对各位选手也造成了巨大的考验,就连算力最为强劲的RTX4090,也只保持不到3张每分钟的成绩,可见对于画高清人像来说,游戏显卡还是有着较高的压力,来看一下各位选手们的成绩吧。
1064-c581e032cee1bb54e2c370e4656369c9.jpg
  面对巨大的算力挑战,各位参赛选手出现了明显的性能吃紧,不少选手们的绘画时间只能保持在一分钟一张左右,而特别出色的旗舰选手们才能碰到2张每分钟的门槛。甚至还有的选手(RTX3050)只能维持2分钟画一张的水平。
  在画NVIDIA小屋时旗鼓相当的RTX3080和RTX4070终于在这轮拉开了差距,RTX3080以近20%的实力差距绝杀了RTX4070,也以10%的优势超过了RTX4070Ti,稳住了80显卡的尊严与威望。
  而在显存占用上,NVIDIA小屋比赛时还有能漏网之鱼的8GB显存组,在本轮测试中,无一例外,全部显存跑满,集体出现显存不足的情况。
1f4f-92a23c791cbfb3805fafc2b1b4bfc1bd.jpg
  在12GB显存组选手中,虽然没有跑满显存,但是在RTX40系显卡中也出现了显存吃紧的情况,RTX40系两兄弟显存都被Ai吃掉了95%左右。
0ebb-4b4a1ab91dc0e3293c3aa7362242e3a9.jpg
  与RTX3090Ti同样使用24GB显存的RTX4090,在Ai画图时就比前者多占用了17%左右的显存空间,让Ai引擎吃到了17GB左右的显存空间,配合一骑绝尘的512核心第四代Tensor核心,无疑问鼎了本次Ai绘画算力对比之巅。
cc7b-0a8a5bc8b5fca7ec7b5922634919bf8c.jpg
8743-3fd603a7a8a685d89a7431cf72e0d421.jpg
d5a0-2569f19d1a5a229b82fe81acf97a0fb6.jpg
  整体表现情况
e2d4-b7be91d8adf1a1a2e254f9347d7cbe8d.jpg
  显卡Ai绘图最大功耗一览
f8d9-17a9a8543f1cee5ec04da9c10ac8c635.jpg
  显卡能耗比情况一览

■ 结束语
  显卡与AI绘画的关系就像是画家的手与画笔之间的紧密配合,在这个关系中,显卡是高效处理大量并行计算任务的关键硬件,而AI绘画则是依赖显卡强大计算能力实现的一种先进的艺术形式。AI绘画技术通常采用生成对抗网络(GANs)或变分自编码器(VAEs)等深度学习模型来生成具有特定风格或特征的图像。而显卡也已经从单纯的图像处理器,逐渐演变成了复杂的计算平台。二者相辅相成,相互促进Ai生成、深度学习、显卡领域的不断发展,成为硬件市场上为数不多仍然焕发活力的领域。
ccae-ababc72229d9cfe7f3ecbeef8f5c4586.jpg
  Ai算力服务器-Ai绘画
  在本期的【AI时刻】中,我们对15款NVIDIA显卡的stablediffusionAI绘画能力进行了深入评测。从测试结果中,我们明显看到显卡在AI和深度学习算力上的持续进步。尤其是在RTX40系列显卡中,得益于全新的架构和更加先进的Tensor核心技术,使得RTX4070不仅能与前代RTX3080在AI算力上一较高下,同时在保持中上游AI性能的情况下,功耗更加优越。
  因此,如果你对AI计算(如画AI小姐姐)感兴趣,并希望拥有一款性能与功耗兼顾的显卡,那么RTX4070无疑是一个理想的选择。而如果你打算通过游戏显卡(由于各种原因,NVIDIAA100/H100难以购买)来搭建一个小型AI服务器,那么选择多张RTX4090则毫无疑问是最佳方案。无论是从性能、功耗还是扩展性的角度,RTX40系列显卡为游戏玩家、AI领域的开发者提供了更多可能性,展示了显卡技术在未来的发展潜力。
『 巴蜀网 』提醒,在使用本论坛之前您必须仔细阅读并同意下列条款:
  1. 遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其他各项有关法律法规,并遵守您在会员注册时已同意的《『 巴蜀网 』管理办法》;
  2. 严禁发表危害国家安全、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容;
  3. 本帖子由 大洪河 发表,享有版权和著作权(转帖除外),如需转载或引用本帖子中的图片和文字等内容时,必须事前征得 大洪河 的书面同意;
  4. 本帖子由 大洪河 发表,仅代表用户本人所为和观点,与『 巴蜀网 』的立场无关,大洪河 承担一切因您的行为而直接或间接导致的民事或刑事法律责任。
  5. 本帖子由 大洪河 发表,帖子内容(可能)转载自其它媒体,但并不代表『 巴蜀网 』赞同其观点和对其真实性负责。
  6. 本帖子由 大洪河 发表,如违规、或侵犯到任何版权问题,请立即举报,本论坛将及时删除并致歉。
  7. 『 巴蜀网 』管理员和版主有权不事先通知发帖者而删除其所发的帖子。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

© 2002-2024, 蜀ICP备12031014号, Powered by 5Panda
GMT+8, 2024-7-24 20:29, Processed in 0.234000 second(s), 10 queries, Gzip On, MemCache On
快速回复 返回顶部 返回列表