题
我注意到,我可以使用存储器块矩阵或者使用cudamalloc()分配或cublasalloc()函数调用CUBLAS功能。矩阵传输速率和计算是()使用cudamalloc分配数组,而不是cublasalloc()慢,虽然有使用cudamalloc()其它优点使用数组。为什么会这样?这将是巨大的,听到的一些意见。
解决方案
cublasAlloc
基本上是围绕cudaMalloc()
的包装,所以应该没有什么区别,还有什么改变在你的代码?
不隶属于 StackOverflow
题
我注意到,我可以使用存储器块矩阵或者使用cudamalloc()分配或cublasalloc()函数调用CUBLAS功能。矩阵传输速率和计算是()使用cudamalloc分配数组,而不是cublasalloc()慢,虽然有使用cudamalloc()其它优点使用数组。为什么会这样?这将是巨大的,听到的一些意见。
解决方案
cublasAlloc
基本上是围绕cudaMalloc()
的包装,所以应该没有什么区别,还有什么改变在你的代码?