<p>07/07/2021<br />
Dear Users,</p>
<p>during last M100 maintenance, we configured SLURM resource manager so to<br />
collect statistics on the GPU usage and accounting for each job. The service<br />
is based on NVIDIA Data Center GPU Manager<br /><a href="https://developer.nvidia.com/dcgm">https://developer.nvidia.com/dcgm</a> (DCGM), and produces a report per node,<br />
for all the requested GPUs, at the end of each job. The reports are saved in<br />
the job submit directory, in files named "dcgmi_stats__.out".</p>
<p>The report contains statistics on the GPU usage (Power and Memory usage,<br />
etc.) for your run, and the assessment on the overall health state of GPUs.</p>
<p>Best regards,</p>
<p>HPC User Support @ CINECA</p>