
Ho un obiettivo basato su processore ARM NEON Cortex-A8. Stavo ottimizzando il mio codice facendo uso di NEON. Ma quando compilo il mio codice ottengo questo strano errore. Non so come risolvere questo problema.

Sto cercando di compilare il codice seguente (PARTE 1) utilizzando codice Sourcery (PART2) sul mio ospite. E ho questo strano errore (PART3). Sto facendo qualcosa di sbagliato qui? chiunque altro può compilare questo e vedere se anche ottenere lo stesso errore di compilazione?

La parte strana è, nel codice, se io commento la parte else if(step_size == 4) del codice, quindi l'errore scompare. Ma, purtroppo il mio ottimizzazione non è completa senza di essa, quindi devo averlo.

In un primo momento ho pensato che il suo problema con CodeSourcey compilatore (sul mio host), così ho compilato il programma sul mio obiettivo direttamente (il mio obiettivo gira su Ubuntu). Ho usato gcc lì e ancora una volta, ottengo lo stesso errore e quando io commento la parte else if(step_size == 4), poi i svanisce errore.


Parte 1


#define IMAGE_HEIGHT 480
#define IMAGE_WIDTH  640

float32_t integral_image[IMAGE_HEIGHT][IMAGE_WIDTH];

float32x4_t box_area_compute3(int, int , int , int , unsigned int , float);

inline int min(int, int);

int main()

 box_area_compute3(1, 1, 4, 4, 2, 0);

 return 0;

float32x4_t box_area_compute3(int row, int col, int num_rows, int num_cols, unsigned int step_size, float three)
 unsigned int height = IMAGE_HEIGHT;
 unsigned int width = IMAGE_WIDTH;

 int temp_row = row + num_rows;
 int temp_col = col + num_cols;

 int r1 = (min(row, height))- 1 ;
 int r2 = (min(temp_row, height)) - 1;

 int c1 = (min(col, width)) - 1;
 int c2 = (min(temp_col, width)) - 1;

 float32x4_t v128_areas;

 if(step_size == 2)
  float32x4x2_t top_left, top_right, bottom_left, bottom_right;
  top_left    = vld2q_f32((float32_t *)integral_image[r1] + c1);
  top_right   = vld2q_f32((float32_t *)integral_image[r1] + c2);
  bottom_left  = vld2q_f32((float32_t *)integral_image[r2] + c1);
  bottom_right  = vld2q_f32((float32_t *)integral_image[r2] + c2);

  v128_areas = vsubq_f32(vsubq_f32(vaddq_f32(top_left.val[0], bottom_right.val[0]), top_right.val[0]), bottom_left.val[0]);

 else if(step_size == 4)
  float32x4x4_t top_left, top_right, bottom_left, bottom_right;
  top_left   = vld4q_f32((float32_t *)integral_image[r1] + c1);
  top_right   = vld4q_f32((float32_t *)integral_image[r1] + c2);
  bottom_left  = vld4q_f32((float32_t *)integral_image[r2] + c1);
  bottom_right  = vld4q_f32((float32_t *)integral_image[r2] + c2);

  v128_areas = vsubq_f32(vsubq_f32(vaddq_f32(top_left.val[0], bottom_right.val[0]), top_right.val[0]), bottom_left.val[0]);


 if(three == 3.0)
  v128_areas = vmulq_n_f32(v128_areas, three);

 return v128_areas;


inline int min(int X, int Y)
 return (X < Y ? X : Y);


arm-none-linux-gnueabi-gcc -O0 -g3 -Wall -c -fmessage-length=0 -fcommon -MMD -MP -MF"main.d" -MT"main.d" -mcpu=cortex-a8 -marm -mfloat-abi=hard -mfpu=neon-vfpv4 -o"main.o" "../main.c"


../main.c: In function 'box_area_compute3':
../main.c:65: error: unable to find a register to spill in class 'GENERAL_REGS'
../main.c:65: error: this is the insn:
(insn 226 225 227 5 c:\program files\codesourcery\sourcery g++\bin\../lib/gcc/arm-none-linux-gnueabi/4.4.1/include/arm_neon.h:9863 (parallel [
           (set (reg:XI 148 [ D.17028 ])
               (unspec:XI [
                       (mem:XI (reg:SI 3 r3 [301]) [0 S64 A64])
                       (reg:XI 148 [ D.17028 ])
                       (unspec:V4SF [
                               (const_int 0 [0x0])
                           ] 191)
                   ] 111))
           (set (reg:SI 3 r3 [301])
               (plus:SI (reg:SI 3 r3 [301])
                   (const_int 32 [0x20])))
       ]) 1605 {neon_vld4qav4sf} (nil))
../main.c:65: confused by earlier errors, bailing out
cs-make: *** [main.o] Error 1
È stato utile?

Soluzione 2

Bene avevo contattato il Sourcery codice su questo problema e hanno considerato questo come un bug nel compilatore GCC. Così ho scritto la funzione () {} ..... do_it4 in assembly invece di utilizzare teh intrinseche. Ora funziona bene!

Altri suggerimenti

Non riesco a provare questo perché non ho la toolchain per essa, ma questo tipo di errore può spesso essere svolte intorno riformulazione del codice di un po '. In genere questo non dovrebbe accadere, e dovrebbe essere segnalato come un bug, ma si stanno utilizzando funzionalità specifiche del processore, che è probabilmente meno ben collaudato e lucido rispetto al resto del compilatore.

Poiché si tratta di un errore di registro fuoriuscita e hai diversi puntatori coinvolti vivamente sospetto che il compilatore può tentare di caricare più dati nei registri di quanto dovrebbe per paura che ci può essere qualche aliasing in corso (che probabilmente non sta realmente accadendo). Qui di seguito mi occuperò con la possibilità di che, oltre a fare un paio di altre cose che possono diminuire la complessità del codice dal punto di vista del compilatore (anche se potrebbe non sembrare questo è il caso).


#define IMAGE_HEIGHT 480
#define IMAGE_WIDTH  640

float32_t integral_image[IMAGE_HEIGHT][IMAGE_WIDTH];

float32x4_t box_area_compute3(int, int , int , int , unsigned int , float);

inline int min(int, int);

int main()

 box_area_compute3(1, 1, 4, 4, 2, 0);

 return 0;

/* By putting these in separate functions the compiler will initially
 * think about them by themselves, without the complications of the
 * surrounding code.  This may give it the abiltiy to optimise the
 * code somewhat before trying to inline it.
 * This may also serve to make it more obvious to the compiler that
 * the local variables are dead after their use (since they are
 * dead after the call returns, and that the lifetimes of some variable
 * cannot actually overlap (hopefully reducing the register needs).
static inline float32x4_t do_it2(float32_t *tl, float32_t *tr, float32_t *bl, float32_t * br) {
    float32x4x2_t top_left, top_right, bottom_left, bottom_right;
    float32x4_t A, B;

    top_left = vld2q_f32(tl);
    top_right = vld2q_f32(tr);
    bottom_left = vld2q_f32(bl);
    bottom_right = vld2q_f32(br);

    /* By spreading this across several statements I have created several
     * additional sequence points.  The compiler does not think that it
     * has to dereference all of the pointers before doing any of the
     * computations.... maybe. */
    A = vaddq_f32(*top_left.val, *bottom_right.val);
    B = vsubq_f32(A, *top_right.val);
    return vsubq_f32(B, *bottom_left);

static inline float32x4_t do_it4(float32_t *tl, float32_t *tr, float32_t *bl, float32_t * br) {
    float32x4x4_t top_left, top_right, bottom_left, bottom_right;
    float32x4_t A, B;

    top_left = vld4q_f32(tl);
    top_right = vld4q_f32(tr);
    bottom_left = vld4q_f32(bl);
    bottom_right = vld4q_f32(br);

    A = vaddq_f32(*top_left.val, *bottom_right.val);
    B = vsubq_f32(A, *top_right.val);
    return vsubq_f32(B, *bottom_left);

float32x4_t box_area_compute3(int row, int col, int num_rows, int num_cols, unsigned int step_size, float three)
 unsigned int height = IMAGE_HEIGHT;
 unsigned int width = IMAGE_WIDTH;

 int temp_row = row + num_rows;
 int temp_col = col + num_cols;

 int r1 = (min(row, height))- 1 ;
 int r2 = (min(temp_row, height)) - 1;

 int c1 = (min(col, width)) - 1;
 int c2 = (min(temp_col, width)) - 1;

 float32x4_t v128_areas;

     float32_t *tl = (float32_t *)integral_image[r1] + c1;
 float32_t *tr = (float32_t *)integral_image[r1] + c2;
 float32_t *bl = (float32_t *)integral_image[r2] + c1;
 float32_t *br = (float32_t *)integral_image[r2] + c2;

 switch (step_size) {
    case 2:
      v128_areas = do_it2(tl, tr, bl, br);

 case 4:
      v128_areas = do_it4(tl, tr, bl, br);

 if(three == 3.0)
  v128_areas = vmulq_n_f32(v128_areas, three);

 return v128_areas;


inline int min(int X, int Y)
 return (X < Y ? X : Y);

Spero che questo aiuta e che non mi presento eventuali errori.

La linea:

float32x4x4_t top_left, top_right, bottom_left, bottom_right;

utilizza tutti i registri a 16 q! Non è troppo sorprendente che il compilatore non può gestire questa situazione. Probabilmente potrebbe avere fissato questo ri-scrittura di utilizzare un minor numero di registri.

ARM NEON Cortex-A8 ha il supporto vfpv3, Cortex-A5 ha vfpv4 e supporto neon2, (come per: se si utilizza = -mfloat-ABI difficile si salta capacità di emulare in software istruzioni mancante, quindi non è possibile generare il codice che sarebbe stato ottimizzato per vfpv4 ma avrebbe eseguito su vfpv3 con l'emulazione software)

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top