模型|惠普Z8 G4工作站评测:中小型AI模型训练“神器”( 二 )


1、基本的环境配置和参数
根据NVIDIA官网的推荐 , 针对NVIDIA Quadro RTX 8000我选取了450版本的驱动进行了安装 , 并安装了相应版本的CUDA 11.0 , 实现对GPU计算调用加速 。 在Linux下可以通过命令NVIDIA-SMI看GPU驱动以及CUDA版本信息 。 如下图所示 。
模型|惠普Z8 G4工作站评测:中小型AI模型训练“神器”
文章图片

通过CUDA自带的案例程序 , 也可以测试并查看一些基本的计算参数 , 如:

  • – CUDA核心数目
运行程序./NVIDIA_CUDA-11.1_Samples/1_Utilities/deviceQuery/deviceQuery , 可查看CUDA信息 。 如下图 。
模型|惠普Z8 G4工作站评测:中小型AI模型训练“神器”
文章图片

从图中的输出的信息来看 , CUDA核心数目为4608个 , 同时提供48601MB的存储器 , 1.77GHZ的最大频率和7001MHZ的显卡频率 。
  • – 浮点计算能力
运行程序./NVIDIA_CUDA-11.1_Samples/7_CUDALibraries/batchCUBLAS/batchCUBLAS , 可测试GPU的单精度计算能力 。 如下图 。
模型|惠普Z8 G4工作站评测:中小型AI模型训练“神器”
文章图片

  • – 单精度浮点运算
运行程序./NVIDIA_CUDA-11.1_Samples/7_CUDALibraries/batchCUBLAS/batchCUBLAS可进行测试 。 如下图 。
模型|惠普Z8 G4工作站评测:中小型AI模型训练“神器”
文章图片

2、图像分类与目标检测模型的训练
(1)基于CIFAR-10和ImageNet数据集的分类模型训练
在本次的分类模型训练中 , 我分别使用了简单的CNN网络和经典的ResNet50网络 , 分别对CIFAR-10数据集和ImageNet数据集进行了分类训练 。
  • – 模型介绍与数据集介绍
CNN(Convolutional Neural Networks , 卷积神经网络)由于其出色的泛化能力 , 被广泛的应用于物体分类和物体检测等方面 , 在图像方面有着广泛的应用 。 而ResNet网络则是2015年由AI学术界大佬何凯明提出的一中卷积神经网络模型 , 获得了当年ImageNet大规模视觉识别竞赛中图像分类的冠军 。
CIFAR-10数据集是一个比较小、也比较常见的图像分类数据集 , 其共有60000张32×32的彩色图片 , 图片分为10类 , 每类6000张图 。 其中有50000张用于训练 , 10000张用于测试 。
ImageNet数据集则是一个用于视觉对象识别软件研究的大型可视化数据库 , 其中包含了20000多物体类别 , 共计约1400万张图像 , 是计算机视觉领域最具权威的数据集之一 。
  • – 模型训练与结果
在本次的实验中 , 因为CIFAR-10数据集本身的数据量并不多 , 因此通过构建简单的CNN来进行训练 , 来直观感受一下HP Z8 G4工作站的计算能力 。 同时利用经典的ResNet网络 , 选择使用50层深度的ResNet50来对ImageNet数据集中的图像进行分类训练 。 训练结果如下 。
模型|惠普Z8 G4工作站评测:中小型AI模型训练“神器”
文章图片

(2)基于PASCAL VOC和MS COCO数据集的目标检测模型训练
由训练的结果可以看到 , 在数据量不大的CIFAR-10上的分类模型训练 , 当batch设置为5000的时候 , 仅仅只花费了7分钟的时间 。 在大型数据集ImageNet上 , batch同样设置为5000的时候 , 也只花费了3.5个小时 。 当然这个准确率可能不太高 , 但本次实验主要希望得到的是HP Z8 G4工作站的模型训练能力 , 即计算能力 , 而不是算法的好坏 。
  • – 模型介绍与数据集介绍
图像分类和目标检测是计算机视觉领域的基本任务 , 而图像分类也是目标检测的基本工作 , 相较于图像分类任务的复杂度 , 目标检测任务的复杂度更高 , 对计算的需求也更大 。
在本次的试验中 , 我选择了目标检测领域经典的网络模型YOLOv3 , 并将使用它分别在PASCAL VOC和 MS COCO数据集上进行检测模型的训练 。
PASCAL VOC和MS COCO都是目标检测领域比较常用的数据集 。 同时在使用PASCAL VOC数据集的时候 , 我同时选用了PASCAL VOC 2007和PASCAL VOC 2012并将其合并 , 包含了20类物体 , 共计约16万张训练数据 , 2G图像数据 。 而MS COCO比PASCAL VOC的数据更加复杂 , 其中包含了91个物体类别 , 共计约有20G的图像数据 。
  • – 模型训练与结果
YOLOv3通过在PASCAL VOC和MS COCO数据上的检测训练 , 其训练结果如下 。
模型|惠普Z8 G4工作站评测:中小型AI模型训练“神器”
文章图片

三、总结 通过训练的结果来看 , YOLOv3在较小的PASCAL VOC数据集上训练50020轮的时候 , 只需要花费5个小时的时间 。 在具有20G图像数据的MS COCO上训练50020轮的时候 , 需要花费34个小时 , 相当于1.5天 , 时间相对来说还是比较长的 。 不过因为本次训练只是看模型训练的能力 , 因此整体的训练效率还是比较高的 。


推荐阅读