문제
Cudamalloc () 또는 Cublasalloc () 함수를 사용하여 Cublas 함수를 호출하여 할당 된 행렬에 메모리 블록을 사용할 수 있음을 알았습니다. Cudamalloc ()를 사용하여 배열을 사용하는 다른 이점이 있지만 매트릭스 전송 속도 및 계산은 Cudamalloc ()를 사용하여 할당 된 배열에 대해 느리게 진행됩니다. 왜 그런 경우가 있습니까? 의견을 듣는 것이 좋을 것입니다.
해결책
cublasAlloc
본질적으로 래퍼입니다 cudaMalloc()
차이가 없어야합니다. 코드의 다른 변화가 있습니까?
제휴하지 않습니다 StackOverflow