Как получить более быстрый код, чем numpy.dot для умножения матрицы?

Question

np.dot отправляет на Блас когда

Numpy был составлен для использования BLA,
реализация BLAS доступна во время выполнения,
Ваши данные имеют один из DTYPE float32, float64, complex32 или же complex64, а также
Данные соответственно выровнены в памяти.

В противном случае он по умолчанию использует свою собственную, медленную, матричную рутину умножения.

Описана проверка вашей связи BLAS здесь. Анкет Короче говоря, проверьте, есть ли файл _dotblas.so или аналогично в вашей установке Numpy. Когда есть, проверьте, с какой библиотекой BLA она связана; Справочные BLAs медленные, атлас быстрый, открытые и поставщики версии, такие как Intel MKL, еще быстрее. Следите за многопоточными реализациями BLAS, как они Не играй хорошо с Python's multiprocessing.

Затем проверьте выравнивание данных, осмотрев flags ваших массивов. В версиях Numpy до 1.7.2 оба аргумента np.dot должен быть C-заказ. В Numpy> = 1.7.2 это больше не имеет значения, как были введены особые случаи для массивов Fortran.

>>> X = np.random.randn(10, 4)
>>> Y = np.random.randn(7, 4).T
>>> X.flags
  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  UPDATEIFCOPY : False
>>> Y.flags
  C_CONTIGUOUS : False
  F_CONTIGUOUS : True
  OWNDATA : False
  WRITEABLE : True
  ALIGNED : True
  UPDATEIFCOPY : False

Если ваш Numpy не связан с BLA, либо (легко) переустановите его, либо (жестко) используйте BLA gemm (Обобщенная матрица умножна) Функция из Scipy:

>>> from scipy.linalg import get_blas_funcs
>>> gemm = get_blas_funcs("gemm", [X, Y])
>>> np.all(gemm(1, X, Y) == np.dot(X, Y))
True

Это выглядит легко, но вряд ли он проверяет ошибки, поэтому вы должны знать, что делаете.