返回第二百六十八章 得一可安天下  路大头首页

关灯 护眼     字体:

上一页 目录 下一页

一提前准备好的。

“这是源智的团队重写的运行时和算子适配,你可以试着用一下,再去部署一个开源模型。”

听了这句话,薛兆恒脸上露出将信将疑的表情:“你是说,源智抛开硅明提供的软件层,完全重写了?还能达到运行接近cuda的水平?”

韩路一没说话,把手里的u盘又往前递了递。

薛兆恒接了过来,插进了机房里连着服务器集群的一台电脑。

整个机房里的服务器都是内部局域网,他倒不太担心u盘里是病毒。

但他实在不太相信源智有能力做到韩路一刚才说的那些事。

那不真成中国英伟达了吗?

u盘里是几个编译后的文件,文件命名很规范,恰好可以替换掉现在l100的软件栈中算子库和运行时的部分。

甚至都不需要韩路一指导,薛兆恒就知道该把文件复制到哪,然后重新启动了服务器。

重启的过程中,这些新存入硬盘的二进制文件就会被加载到内存中,被服务器集群使用。

控制台的终端开始滚动日志。

l100backenddetected(检测到l100后台)

runtiitialized(运行时已初始化)

kernelfionenabled(算子融合已启用)

orypnneritialized(显存规划已初始化)

ulti-cardschedulerready(多卡调度准备就绪)

服务加载完成。

21b模型开始进入运行状态。

薛兆恒的呼吸微微有些急促。

他没有去手动输入问题,看模型的回复。

模型回复什么,是做模型的人该考虑的问题。

他只需要考虑硬件的性能和利用效率。

服务器里有硅明平时用来测试的脚本,可以大量生成模型输入,对模型的承载能力进行压测。

薛兆恒没有犹豫,开始运行测试脚本。

监控上的数值开始发生变化。

最先跳动的是显存利用率。

之前跑开源小模型,硅明自己的算子库连显存都分配不好,七成的显存白白空在那里。

现在这个数字远远超过了30。

75……82……88……

最后差不多稳定在了95的位置。

压测脚本在没有检测到回灌压力之前,还在加大并发。

现在实时的吞吐量数字已经达到了二十五万词元/秒。

薛兆恒知道,同样的测试,上一次跑的时候卡在两万就上不去了。

在算力芯片上,真正能衡量软件水平的是一个关键指标,叫模型算力利用率(odelfloputilization,fu)。但是这个指标没有直接显示在面板上,因为要计算它需要使用芯片算力的极限值。

如果理论上芯片能跑1000tflops,你的模型实际只用到了200tflops,那fu就是20。

跑21b模型,每生成一个词元需要2x21b,即大概42gflops。

章节内容不完整,请退出阅读模式查看完整内容!
『加入书签,方便阅读』

上一页 目录 下一页