Introdução ao Intel X86 SSE SIMD Instruções

https://stackoverflow.com/questions/1389712

21-09-2019
|

Pergunta

Eu quero aprender mais sobre o uso do Sse.

Que maneiras existem para aprender, além da leitura óbvia do Intel® 64 e IA-32 Arquiteturas Developer Manuals Developers?

Principalmente estou interessado em trabalhar com o Funções internas do GCC X86.

Solução

Primeiro, eu não recomendo o uso das funções internas - elas não são portáteis (entre os compiladores do mesmo arco).

Usar Intrinsics, GCC Faz um trabalho maravilhoso Otimizando as intrínsecas SSE em código ainda mais otimizado. Você sempre pode dar uma olhada na assembléia e ver como usar o SSE para todo o seu potencial.

Intrinsics são fáceis - assim como chamadas de função normais:

#include <immintrin.h>  // portable to all x86 compilers

int main()
{
    __m128 vector1 = _mm_set_ps(4.0, 3.0, 2.0, 1.0); // high element first, opposite of C array order.  Use _mm_setr_ps if you want "little endian" element order in the source.
    __m128 vector2 = _mm_set_ps(7.0, 8.0, 9.0, 0.0);

    __m128 sum = _mm_add_ps(vector1, vector2); // result = vector1 + vector 2

    vector1 = _mm_shuffle_ps(vector1, vector1, _MM_SHUFFLE(0,1,2,3));
    // vector1 is now (1, 2, 3, 4) (above shuffle reversed it)
    return 0;
}

Usar _mm_load_ps ou _mm_loadu_ps para carregar dados de matrizes.

É claro que existem muito mais opções, o SSE é realmente poderoso e, na minha opinião, relativamente fácil de aprender.

Veja também https://stackoverflow.com/tags/sse/info Para alguns links para guias.

Outras dicas

Desde que você pediu recursos:

Um guia prático para usar SSE com C ++: Boa visão conceitual sobre como usar o SSE de maneira eficaz, com exemplos.

MSDN Listagem de Intrinsics do Compilador: Referência abrangente para todas as suas necessidades intrínsecas. É MSDN, mas praticamente todos os intrínsecos listados aqui também são suportados pelo GCC e pela ICC.

Página SSE de Christopher Wright: Referência rápida sobre os significados dos códigos SSE. Eu acho que os manuais da Intel podem desempenhar a mesma função, mas isso é mais rápido.

Provavelmente, é melhor escrever a maior parte do seu código em intrínsetas, mas verifique o objdump da saída do seu compilador para garantir que ele esteja produzindo um código eficiente. A geração de código SIMD ainda é uma tecnologia bastante nova e é muito possível que o compilador possa errar em alguns casos.

Acho os guias de pesquisa e otimização do Dr. Agner Fog muito valiosos! Ele também tem algumas bibliotecas e ferramentas de teste que ainda não tentei.http://www.agner.org/optimize/

Etapa 1: Escreva alguma montagem manualmente

Eu recomendo que você tente primeiro escrever sua própria montagem manualmente para ver e controlar exatamente o que está acontecendo quando você começa a aprender.

Então a pergunta torna -se como observar o que está acontecendo no programa, e as respostas são:

GDB
Use a biblioteca padrão C para print e assert coisas

Usar a biblioteca padrão C exige um pouco de trabalho, mas nada muito. Por exemplo, fiz esse trabalho bem para você no Linux nos seguintes arquivos da minha configuração de teste:

Usando esses ajudantes, começo a brincar com o básico, como:

Carregar e armazenar dados de / para a memória para registros SSE
Adicione números inteiros e pontos flutuantes de tamanhos diferentes
afirmar que os resultados são o que eu espero

addpd.s

#include <lkmc.h>

LKMC_PROLOGUE
.data
    .align 16
    addps_input0: .float 1.5, 2.5,  3.5,  4.5
    addps_input1: .float 5.5, 6.5,  7.5,  8.5
    addps_expect: .float 7.0, 9.0, 11.0, 13.0
    addpd_input0: .double 1.5, 2.5
    addpd_input1: .double 5.5, 6.5
    addpd_expect: .double 7.0, 9.0
.bss
    .align 16
    output:       .skip 16
.text
    /* 4x 32-bit */
    movaps addps_input0, %xmm0
    movaps addps_input1, %xmm1
    addps %xmm1, %xmm0
    movaps %xmm0, output
    LKMC_ASSERT_MEMCMP(output, addps_expect, $0x10)

    /* 2x 64-bit */
    movaps addpd_input0, %xmm0
    movaps addpd_input1, %xmm1
    addpd %xmm1, %xmm0
    movaps %xmm0, output
    LKMC_ASSERT_MEMCMP(output, addpd_expect, $0x10)
LKMC_EPILOGUE

Github a montante.

Paddq.s

#include <lkmc.h>

LKMC_PROLOGUE
.data
    .align 16
    input0:       .long 0xF1F1F1F1, 0xF2F2F2F2, 0xF3F3F3F3, 0xF4F4F4F4
    input1:       .long 0x12121212, 0x13131313, 0x14141414, 0x15151515
    paddb_expect: .long 0x03030303, 0x05050505, 0x07070707, 0x09090909
    paddw_expect: .long 0x04030403, 0x06050605, 0x08070807, 0x0A090A09
    paddd_expect: .long 0x04040403, 0x06060605, 0x08080807, 0x0A0A0A09
    paddq_expect: .long 0x04040403, 0x06060606, 0x08080807, 0x0A0A0A0A
.bss
    .align 16
    output:       .skip 16
.text
    movaps input1, %xmm1

    /* 16x 8bit */
    movaps input0, %xmm0
    paddb %xmm1, %xmm0
    movaps %xmm0, output
    LKMC_ASSERT_MEMCMP(output, paddb_expect, $0x10)

    /* 8x 16-bit */
    movaps input0, %xmm0
    paddw %xmm1, %xmm0
    movaps %xmm0, output
    LKMC_ASSERT_MEMCMP(output, paddw_expect, $0x10)

    /* 4x 32-bit */
    movaps input0, %xmm0
    paddd %xmm1, %xmm0
    movaps %xmm0, output
    LKMC_ASSERT_MEMCMP(output, paddd_expect, $0x10)

    /* 2x 64-bit */
    movaps input0, %xmm0
    paddq %xmm1, %xmm0
    movaps %xmm0, output
    LKMC_ASSERT_MEMCMP(output, paddq_expect, $0x10)

LKMC_EPILOGUE

Github a montante.

Etapa 2: Escreva alguns Intrinsics

Para o código de produção, no entanto, você provavelmente desejará usar as intrínsecas pré-existentes em vez de uma montagem bruta, conforme mencionado em: https://stackoverflow.com/a/1390802/895245

Então agora tento converter os exemplos anteriores em código C mais ou menos equivalente com a Intrinsics.

addpq.c

#include <assert.h>
#include <string.h>

#include <x86intrin.h>

float global_input0[] __attribute__((aligned(16))) = {1.5f, 2.5f, 3.5f, 4.5f};
float global_input1[] __attribute__((aligned(16))) = {5.5f, 6.5f, 7.5f, 8.5f};
float global_output[4] __attribute__((aligned(16)));
float global_expected[] __attribute__((aligned(16))) = {7.0f, 9.0f, 11.0f, 13.0f};

int main(void) {
    /* 32-bit add (addps). */
    {
        __m128 input0 = _mm_set_ps(1.5f, 2.5f, 3.5f, 4.5f);
        __m128 input1 = _mm_set_ps(5.5f, 6.5f, 7.5f, 8.5f);
        __m128 output = _mm_add_ps(input0, input1);
        /* _mm_extract_ps returns int instead of float:
        * * https://stackoverflow.com/questions/5526658/intel-sse-why-does-mm-extract-ps-return-int-instead-of-float
        * * https://stackoverflow.com/questions/3130169/how-to-convert-a-hex-float-to-a-float-in-c-c-using-mm-extract-ps-sse-gcc-inst
        * so we must use instead: _MM_EXTRACT_FLOAT
        */
        float f;
        _MM_EXTRACT_FLOAT(f, output, 3);
        assert(f == 7.0f);
        _MM_EXTRACT_FLOAT(f, output, 2);
        assert(f == 9.0f);
        _MM_EXTRACT_FLOAT(f, output, 1);
        assert(f == 11.0f);
        _MM_EXTRACT_FLOAT(f, output, 0);
        assert(f == 13.0f);

        /* And we also have _mm_cvtss_f32 + _mm_shuffle_ps, */
        assert(_mm_cvtss_f32(output) == 13.0f);
        assert(_mm_cvtss_f32(_mm_shuffle_ps(output, output, 1)) == 11.0f);
        assert(_mm_cvtss_f32(_mm_shuffle_ps(output, output, 2)) ==  9.0f);
        assert(_mm_cvtss_f32(_mm_shuffle_ps(output, output, 3)) ==  7.0f);
    }

    /* Now from memory. */
    {
        __m128 *input0 = (__m128 *)global_input0;
        __m128 *input1 = (__m128 *)global_input1;
        _mm_store_ps(global_output, _mm_add_ps(*input0, *input1));
        assert(!memcmp(global_output, global_expected, sizeof(global_output)));
    }

    /* 64-bit add (addpd). */
    {
        __m128d input0 = _mm_set_pd(1.5, 2.5);
        __m128d input1 = _mm_set_pd(5.5, 6.5);
        __m128d output = _mm_add_pd(input0, input1);
        /* OK, and this is how we get the doubles out:
        * with _mm_cvtsd_f64 + _mm_unpackhi_pd
        * https://stackoverflow.com/questions/19359372/mm-cvtsd-f64-analogon-for-higher-order-floating-point
        */
        assert(_mm_cvtsd_f64(output) == 9.0);
        assert(_mm_cvtsd_f64(_mm_unpackhi_pd(output, output)) == 7.0);
    }

    return 0;
}

Github a montante.

paddq.c

#include <assert.h>
#include <inttypes.h>
#include <string.h>

#include <x86intrin.h>

uint32_t global_input0[] __attribute__((aligned(16))) = {1, 2, 3, 4};
uint32_t global_input1[] __attribute__((aligned(16))) = {5, 6, 7, 8};
uint32_t global_output[4] __attribute__((aligned(16)));
uint32_t global_expected[] __attribute__((aligned(16))) = {6, 8, 10, 12};

int main(void) {

    /* 32-bit add hello world. */
    {
        __m128i input0 = _mm_set_epi32(1, 2, 3, 4);
        __m128i input1 = _mm_set_epi32(5, 6, 7, 8);
        __m128i output = _mm_add_epi32(input0, input1);
        /* _mm_extract_epi32 mentioned at:
        * https://stackoverflow.com/questions/12495467/how-to-store-the-contents-of-a-m128d-simd-vector-as-doubles-without-accessing/56404421#56404421 */
        assert(_mm_extract_epi32(output, 3) == 6);
        assert(_mm_extract_epi32(output, 2) == 8);
        assert(_mm_extract_epi32(output, 1) == 10);
        assert(_mm_extract_epi32(output, 0) == 12);
    }

    /* Now from memory. */
    {
        __m128i *input0 = (__m128i *)global_input0;
        __m128i *input1 = (__m128i *)global_input1;
        _mm_store_si128((__m128i *)global_output, _mm_add_epi32(*input0, *input1));
        assert(!memcmp(global_output, global_expected, sizeof(global_output)));
    }

    /* Now a bunch of other sizes. */
    {
        __m128i input0 = _mm_set_epi32(0xF1F1F1F1, 0xF2F2F2F2, 0xF3F3F3F3, 0xF4F4F4F4);
        __m128i input1 = _mm_set_epi32(0x12121212, 0x13131313, 0x14141414, 0x15151515);
        __m128i output;

        /* 8-bit integers (paddb) */
        output = _mm_add_epi8(input0, input1);
        assert(_mm_extract_epi32(output, 3) == 0x03030303);
        assert(_mm_extract_epi32(output, 2) == 0x05050505);
        assert(_mm_extract_epi32(output, 1) == 0x07070707);
        assert(_mm_extract_epi32(output, 0) == 0x09090909);

        /* 32-bit integers (paddw) */
        output = _mm_add_epi16(input0, input1);
        assert(_mm_extract_epi32(output, 3) == 0x04030403);
        assert(_mm_extract_epi32(output, 2) == 0x06050605);
        assert(_mm_extract_epi32(output, 1) == 0x08070807);
        assert(_mm_extract_epi32(output, 0) == 0x0A090A09);

        /* 32-bit integers (paddd) */
        output = _mm_add_epi32(input0, input1);
        assert(_mm_extract_epi32(output, 3) == 0x04040403);
        assert(_mm_extract_epi32(output, 2) == 0x06060605);
        assert(_mm_extract_epi32(output, 1) == 0x08080807);
        assert(_mm_extract_epi32(output, 0) == 0x0A0A0A09);

        /* 64-bit integers (paddq) */
        output = _mm_add_epi64(input0, input1);
        assert(_mm_extract_epi32(output, 3) == 0x04040404);
        assert(_mm_extract_epi32(output, 2) == 0x06060605);
        assert(_mm_extract_epi32(output, 1) == 0x08080808);
        assert(_mm_extract_epi32(output, 0) == 0x0A0A0A09);
    }

    return 0;

Github a montante.

Etapa 3: vá e otimize algum código e compare -o

O passo final, e mais importante e difícil, é, obviamente, usar o Intrinsics para tornar seu código rapidamente e, em seguida, comparar sua melhoria.

Fazendo isso, provavelmente exigirá que você aprenda um pouco sobre a microarquitetura x86, que eu não me conheço. CPU vs IO Bound provavelmente será uma das coisas que surgem: O que significa os termos "CPU Bound" e "E/S Bound"?

Como mencionado em: https://stackoverflow.com/a/12172046/895245 Isso envolverá quase inevitavelmente a leitura da documentação de Agner Fog, que parece ser melhor do que qualquer coisa que a própria Intel publicou.

Esperançosamente, no entanto, as etapas 1 e 2 servirão de base para pelo menos experimentar aspectos funcionais de não desempenho e ver rapidamente o que as instruções estão fazendo.

TODO: Produza um exemplo mínimo interessante de tal otimização aqui.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow