我注意到,我可以使用存储器块矩阵或者使用cudamalloc()分配或cublasalloc()函数调用CUBLAS功能。矩阵传输速率和计算是()使用cudamalloc分配数组,而不是cublasalloc()慢,虽然有使用cudamalloc()其它优点使用数组。为什么会这样?这将是巨大的,听到的一些意见。

有帮助吗?

解决方案

cublasAlloc基本上是围绕cudaMalloc()的包装,所以应该没有什么区别,还有什么改变在你的代码?

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top