博主最近买了三台二手的服务器,准备后面用来做COMSOL有限元仿真计算以及一些AI相关的工作,因此这里把服务器调试以及安装调试仿真软件过程中涉及到的一些问题和经验记录一下,和大家也分享学习一下。
1、服务器的配置
对于服务器的配置方面,博主主要关注了CPU处理器、核数、内存,其它的博主也不太懂。博主配的机架式的服务器,纯粹是因为价格低。服务器用的浪潮的5215M5的架构(我理解相当于主板的意思吧),然后两枚8259CL的CPU,总共48核96线程,内存16条16G的,总共256G,硬盘480G固态硬盘+2T的机械硬盘,显卡为英伟达的tesla P100 GPU。
对于这个配置博主总的感觉是应该做有限元仿真和模型不那么大的AI应该是够用了,尤其是内存,可能有点过了吧,感觉12条16G或者14条16G,应该也没大问题,所以可能内存200G就够。P100这个GPU应该是最早英伟达推出做AI运算的,显存16G也够了,如果还需扩展,配上两块GPU,现在浪潮这个主板也支持的。
5212m5 12盘位 8259CL*2 sk16g *16 s3510 480g ssd *1 2t sas 0023 *2 3008卡 单电1200w 加p100 16g gpu *1
2、服务器的操作系统
服务器用的店家发出来默认的系统,是Windows Server 2019的,界面上看上去和win10差不多,本来博主想重装win10系统,后来因为在服务器上已经安装了后面要用的仿真软件COMSOL和ANSYS,都挺大的,所以就没重装系统了。办公室网络用的是校园无线网,所以办公室电脑上都直接插无线网卡,就能上网。但是在服务器上,没能实现,询问了无线网卡的店家,说可能和系统有关,问了服务器的店家,他也说可能不支持无线网卡,所以,我姑且认为Windows server 2019不太支持无线网卡吧。所以,想支持无线网卡的朋友,记得提前给店家打好招呼,安装win 10或者win11。
3、服务器的测试
有的店家在服务器上设置了通电自启动,有的没有,博主的其中一台服务器设置了,其它两台没设置。因为是机架式服务器,所以开机声音非常大,像飞机起飞。有需要控制噪声的朋友,可以网上搜一下“服务器降低风扇转速”,可以看到如何操作。服务器的开机还是需要一些时间的,大约三四分钟吧。
接下来就可以在“设备管理器”里查看服务器的硬件情况了,另外在开机过程中,会经历一个dos页面,上面也会显示CPU个数及型号、内存大小等关键硬件信息。
博主根据朋友的推荐,主要采用Aida64测试软件,其中即可以像设备管理器那样查看硬件设备情况,还可以对CPU和内存进行测试,懂的朋友可以测一下,博主也测了,就是对测试结果没有啥概念,不知道算高还是低。博主主要用的软件的“stress test”也就是压力测试或者电脑稳定性测试功能,原理就是把CPU和内存应用率开到最大运行,根据网上朋友建议,连续跑半个小时没出现蓝屏或者彻底电脑卡死的情况,应该就说明电脑硬件稳定性比较好了。博主做压力测试的时候,由于内存被占到97%以上,所以,电脑会稍微有点卡顿,但不是长时间的卡死,所以也基本就算抗过了压力测试吧。
另外,博主有其中一台服务器,在第一次开机过程中,就发现只识别了15个内存条,这时候去看服务器前面板上的故障灯,可能会显示内存故障,但是不影响开机。联系了服务器店家,说重新插拔一下所有的内存条试一下,博主首次动手学习插拔了内存条,最后再次开机,确实是能把所有内存条都识别了。博主觉的,应该就是和设备是二手的原因有关。内存条如何在插槽(见下图)上插拔,在B站上可以搜到好多,朋友们可以参考,博主的经验就是:“放心大胆搞!”
4、软件的安装
博主在服务器上总共安装了四个软件:ANSYS、COMSOL、MATLAB和Python。其中前三个软件的安装直接参考网上对应版本的安装教程即可,和在Win10和Win11系统上安装的情况应该是一样的。
博主重点需要记录的是关于Python和其它相关库的安装。因为,博主上文提过服务器没法用无线网卡,所以服务器在调试的时候没法上网,这样对于Python在库的安装上就需要用到离线安装了。这里博主要感谢万能的Deepseek,我把我的需求告诉他(主要告诉他我的Python的版本以及我想要的库),他直接告诉我怎么做。尤其要注意的是,库的安装,除了安装库本身以外,还有很多这个库的前置库或文件需要下载。这些前置库,Deepseek都已经帮我罗列好了,我只要在一台能联网的电脑上通过cmd命令行,直接下载到U盘里,然后把这些库文件安装包拷贝到服务器上,再在服务器上安装即可。
关于Python,博主主要让Deepseek给出一个AI相关的程序,然后博主根据报错,去下载需要的库,因为博主后期可能会用到学校的服务器,上面AI任务都是用的jupyterLab环境,所以我在本地也安装了jupyterlab。这里注意一下,juypyterlab是用浏览器打开的,博主服务器自带的浏览器可能是版本原因还是什么其它原因,打开后一片空白;网上有朋友说重装一个其它的浏览器就行了,后来博主安装了个搜狗浏览器,确实就好使了。所以,遇到jupyterlab打开浏览器一片空白的朋友,记得用其它浏览器打开环境试一下。
另外,博主部署GPU,就是为了做AI运算,所以程序也测试了GPU加速是否好使,服务器出厂的时候没有安装显卡驱动,所以没有识别GPU,在英伟达官网上下载对应显卡的驱动安装即可。至于对比CPU和GPU加速的程序,当然也是Deepseek给出来的。这里博主要说一下腾讯元宝了,感觉他的编程能力不太行,程序有问题,但Deepseek好像就比较好用。
5、软件的调试。
因为后期博主主要使用COMSOL和Python,所以只对这两个软件进行了调试使用。Python博主就不赘述了,主要就是用jupyterlab运行Deepseek给出的AI程序,对比CPU和GPU模型训练速度、还有查看GPU的利用率等等。尤其是博主测试的几个例子中,发现GPU的利用率比较低,所以也向Deepseek询问了原因,并测试了在GPU的利用率比较高的情况下能够加速的程度。
对于COMSOL,博主主要从他官方的案例库中下载案例直接运行。我会对比我办公室电脑和服务器的运算速率。后来发现对于服务器运算速度影响主要有核数、CPU个数、网格数这三个指标。因为COMSOL没有超线程的技术,所以运行后可以发现CPU的利用率只有40%左右,也就是说他只能用核数的资源,其它超线程的性能是用不上的。如果偏要把CPU的利用率拉满,就需要在COMSOL软件的运算选项中设置,比如48核,你直接让COMSOL用96核算,会发现CPU的利用率拉满了,但是博主测速发现这时候运算时间反而更长,运算效率更低了,不知道如果网格数量再大一些,会不会更有效;还有就是,如果只用1个CPU上的核数计算,会比直接用2个CPU上的所有核计算,效率更高;再一个就是网格数越多,多核运算效率提升的越明显。
6、其它
另外,记录一下博主把其中一台服务器上盖打开了,把两个GPU装到一台服务器上了。中间了解到我手里的浪潮的这款服务器主板上,要插一个扩展板,也就是将一个插槽扩展为两个插槽,其中一个扩展的插槽用来插硬盘的,另一个扩展的插槽用来插显卡GPU的。所以,要想一台服务器上装两个GPU,就需要两个扩展板。至于扩展板的插拔,只能是实物操作了,博主也不好描述,但对博主来说确实是第一次弄,还挺新鲜的。