首页 科技 正文

RTX 3090 AI性能测量:FP32训练速度提高50%,张量核心缩小

晓查 只想说 凹非寺量子位 报导 | 微信公众号 QbitAI

NVIDIA近期公布了深受希望的RTX 30系列产品独立显卡。

在其中,性能最强劲的RTX 3090具备24GB显卡内存和10496个CUDA关键。而2018发布的旗舰级独立显卡Titan RTX一样具备24GB显卡内存。

RTX 3090在深度神经网络训练每日任务中,性能主要表现到底怎样,它可否替代Titan RTX变成最強消費级AI训练卡?如今早已拥有回答。

海外俩位AI从业人员在取得这款独立显卡后,第一时间检测了其在TensorFlow上的AI训练性能。

因为RTX 3090目前不可以非常好地适用TensorFlow 2,因而先在TensorFlow 1.15上开展检测。

话不多说,首先看数据信息。在FP32每日任务上,RTX 3090每秒钟可解决561张图片,Titan RTX每秒钟可解决373张图片,性能提高50.4%!

而在FP16每日任务上,RTX 3090每秒钟可解决1163张图片,Titan RTX每秒钟可解决1082张图片,性能仅提高7.5%。

为什么在FP32每日任务上的性能提高比在FP16上更显著,关键是由于RTX 3090进一步提高了CUDA关键的总数。可是用以解决FP16的张量关键总数显著降低,这很有可能会危害FP16性能。

即使如此,张量关键越来越少的RTX 3090在许多FP16每日任务上,性能仍然有小幅度提高。

接着,英伟达显卡官方网出示了适用RTX 3090的CUDA 11.1,谷歌官方在TensorFlow nightly版中出示了对最新显卡的适用。

又有客户再度检测了2款独立显卡的性能比照。

△ 训练性能:每秒钟解决的照片总数

能够 看得出,应用FP32开展的全部实体模型训练,RTX 3090都能完成40%~60%的训练提高。而大部分实体模型的FP16训练速率基本上不会改变,数最多提高20%,乃至在Inception实体模型上也有所降低。

只有说RTX 3090在张量关键上的“刀功”甚为精确,假如你对FP16训练性能有较高规定,或许能够 等候将来的全新升级。

但是RTX 3090发售价钱仅1499美金,比Titan RTX划算1000美金,仍无外乎“性价比高”之选。

https://www.pugetsystems.com/labs/hpc/RTX3090-TensorFlow-NAMD-and-HPCG-Performance-on-Linux-Preliminary-1902/

https://www.evolution.ai/post/benchmarking-deep-learning-workloads-with-tensorflow-on-the-nvidia-geforce-rtx-3090

非特殊说明,本文由原创资讯网原创或收集发布。

转载请注明本文地址:http://www.68nw.com/kj/1449.html