Erro desconhecido do GCC, enquanto compilou o néon do braço (crítico)
-
26-09-2019 - |
Pergunta
Eu tenho um alvo de processador baseado em córtex-a8 do ARM NEON. Eu estava otimizando meu código usando o neon. Mas quando compilar meu código, recebo esse erro estranho. Não sei como consertar isso.
Estou tentando compilar o seguinte código (Parte 1) usando o código de fonte (Part2) no meu host. E eu recebo esse erro estranho (parte3). Estou fazendo algo errado aqui? Alguém mais pode compilar isso e ver se eles também recebem o mesmo erro de compilação?
A parte estranha está, no código, se eu comentar o else if(step_size == 4)
Parte do código, então o erro desaparece. Mas, infelizmente, minha otimização não está completa sem isso, então devo tê -lo.
No começo, pensei que é o problema do CodESourcey Compiler (no meu host), então compilei o programa diretamente no meu destino (meu alvo é executado no Ubuntu). Eu usei o GCC lá e mais uma vez, recebo o mesmo erro e quando comento o else if(step_size == 4)
parte, então o erro desaparece.
Ajuda!
PARTE 1
#include<stdio.h>
#include"arm_neon.h"
#define IMAGE_HEIGHT 480
#define IMAGE_WIDTH 640
float32_t integral_image[IMAGE_HEIGHT][IMAGE_WIDTH];
float32x4_t box_area_compute3(int, int , int , int , unsigned int , float);
inline int min(int, int);
int main()
{
box_area_compute3(1, 1, 4, 4, 2, 0);
return 0;
}
float32x4_t box_area_compute3(int row, int col, int num_rows, int num_cols, unsigned int step_size, float three)
{
unsigned int height = IMAGE_HEIGHT;
unsigned int width = IMAGE_WIDTH;
int temp_row = row + num_rows;
int temp_col = col + num_cols;
int r1 = (min(row, height))- 1 ;
int r2 = (min(temp_row, height)) - 1;
int c1 = (min(col, width)) - 1;
int c2 = (min(temp_col, width)) - 1;
float32x4_t v128_areas;
if(step_size == 2)
{
float32x4x2_t top_left, top_right, bottom_left, bottom_right;
top_left = vld2q_f32((float32_t *)integral_image[r1] + c1);
top_right = vld2q_f32((float32_t *)integral_image[r1] + c2);
bottom_left = vld2q_f32((float32_t *)integral_image[r2] + c1);
bottom_right = vld2q_f32((float32_t *)integral_image[r2] + c2);
v128_areas = vsubq_f32(vsubq_f32(vaddq_f32(top_left.val[0], bottom_right.val[0]), top_right.val[0]), bottom_left.val[0]);
}
else if(step_size == 4)
{
float32x4x4_t top_left, top_right, bottom_left, bottom_right;
top_left = vld4q_f32((float32_t *)integral_image[r1] + c1);
top_right = vld4q_f32((float32_t *)integral_image[r1] + c2);
bottom_left = vld4q_f32((float32_t *)integral_image[r2] + c1);
bottom_right = vld4q_f32((float32_t *)integral_image[r2] + c2);
v128_areas = vsubq_f32(vsubq_f32(vaddq_f32(top_left.val[0], bottom_right.val[0]), top_right.val[0]), bottom_left.val[0]);
}
if(three == 3.0)
v128_areas = vmulq_n_f32(v128_areas, three);
return v128_areas;
}
inline int min(int X, int Y)
{
return (X < Y ? X : Y);
}
PARTE 2
arm-none-linux-gnueabi-gcc -O0 -g3 -Wall -c -fmessage-length=0 -fcommon -MMD -MP -MF"main.d" -MT"main.d" -mcpu=cortex-a8 -marm -mfloat-abi=hard -mfpu=neon-vfpv4 -o"main.o" "../main.c"
Parte 3
../main.c: In function 'box_area_compute3':
../main.c:65: error: unable to find a register to spill in class 'GENERAL_REGS'
../main.c:65: error: this is the insn:
(insn 226 225 227 5 c:\program files\codesourcery\sourcery g++\bin\../lib/gcc/arm-none-linux-gnueabi/4.4.1/include/arm_neon.h:9863 (parallel [
(set (reg:XI 148 [ D.17028 ])
(unspec:XI [
(mem:XI (reg:SI 3 r3 [301]) [0 S64 A64])
(reg:XI 148 [ D.17028 ])
(unspec:V4SF [
(const_int 0 [0x0])
] 191)
] 111))
(set (reg:SI 3 r3 [301])
(plus:SI (reg:SI 3 r3 [301])
(const_int 32 [0x20])))
]) 1605 {neon_vld4qav4sf} (nil))
../main.c:65: confused by earlier errors, bailing out
cs-make: *** [main.o] Error 1
Solução 2
Bem, eu tinha contatado o código de código sobre esse problema e eles consideraram isso um bug no compilador GCC. Então, eu escrevi a função do_it4 () {.....} na montagem em vez de usar o TEH Intrinsics. Agora funciona bem!
Outras dicas
Não posso testar isso porque não tenho a cadeia de ferramentas para isso, mas esse tipo de erro pode ser realizado com a reforma do código um pouco. Geralmente, isso não deve acontecer e deve ser relatado como um bug, mas você está usando a funcionalidade específica do processador, que provavelmente é menos bem testada e polida do que o restante do compilador.
Como é um erro de derramamento de registro e você tem várias dicas envolvidas, suspeito que o compilador possa estar tentando carregar mais dados em registros do que precisa por medo de que haja algum alias acontecendo (que provavelmente não é ' t realmente acontecendo). Abaixo, vou lidar com a possibilidade disso, assim como algumas outras coisas que podem diminuir a complexidade do código da perspectiva do compilador (embora possa não parecer que esse seja o caso).
#include<stdio.h>
#include"arm_neon.h"
#define IMAGE_HEIGHT 480
#define IMAGE_WIDTH 640
float32_t integral_image[IMAGE_HEIGHT][IMAGE_WIDTH];
float32x4_t box_area_compute3(int, int , int , int , unsigned int , float);
inline int min(int, int);
int main()
{
box_area_compute3(1, 1, 4, 4, 2, 0);
return 0;
}
/* By putting these in separate functions the compiler will initially
* think about them by themselves, without the complications of the
* surrounding code. This may give it the abiltiy to optimise the
* code somewhat before trying to inline it.
* This may also serve to make it more obvious to the compiler that
* the local variables are dead after their use (since they are
* dead after the call returns, and that the lifetimes of some variable
* cannot actually overlap (hopefully reducing the register needs).
*/
static inline float32x4_t do_it2(float32_t *tl, float32_t *tr, float32_t *bl, float32_t * br) {
float32x4x2_t top_left, top_right, bottom_left, bottom_right;
float32x4_t A, B;
top_left = vld2q_f32(tl);
top_right = vld2q_f32(tr);
bottom_left = vld2q_f32(bl);
bottom_right = vld2q_f32(br);
/* By spreading this across several statements I have created several
* additional sequence points. The compiler does not think that it
* has to dereference all of the pointers before doing any of the
* computations.... maybe. */
A = vaddq_f32(*top_left.val, *bottom_right.val);
B = vsubq_f32(A, *top_right.val);
return vsubq_f32(B, *bottom_left);
}
static inline float32x4_t do_it4(float32_t *tl, float32_t *tr, float32_t *bl, float32_t * br) {
float32x4x4_t top_left, top_right, bottom_left, bottom_right;
float32x4_t A, B;
top_left = vld4q_f32(tl);
top_right = vld4q_f32(tr);
bottom_left = vld4q_f32(bl);
bottom_right = vld4q_f32(br);
A = vaddq_f32(*top_left.val, *bottom_right.val);
B = vsubq_f32(A, *top_right.val);
return vsubq_f32(B, *bottom_left);
}
float32x4_t box_area_compute3(int row, int col, int num_rows, int num_cols, unsigned int step_size, float three)
{
unsigned int height = IMAGE_HEIGHT;
unsigned int width = IMAGE_WIDTH;
int temp_row = row + num_rows;
int temp_col = col + num_cols;
int r1 = (min(row, height))- 1 ;
int r2 = (min(temp_row, height)) - 1;
int c1 = (min(col, width)) - 1;
int c2 = (min(temp_col, width)) - 1;
float32x4_t v128_areas;
float32_t *tl = (float32_t *)integral_image[r1] + c1;
float32_t *tr = (float32_t *)integral_image[r1] + c2;
float32_t *bl = (float32_t *)integral_image[r2] + c1;
float32_t *br = (float32_t *)integral_image[r2] + c2;
switch (step_size) {
case 2:
v128_areas = do_it2(tl, tr, bl, br);
break;
case 4:
v128_areas = do_it4(tl, tr, bl, br);
break;
}
if(three == 3.0)
v128_areas = vmulq_n_f32(v128_areas, three);
return v128_areas;
}
inline int min(int X, int Y)
{
return (X < Y ? X : Y);
}
Espero que isso ajude e que eu não tenha introduzido nenhum erro.
A linha:
float32x4x4_t top_left, top_right, bottom_left, bottom_right;
Usa todos os 16 registros Q! Não é de surpreender que o compilador não possa lidar com isso. Você provavelmente poderia ter corrigido isso reescrevendo para usar menos registros.
O ARM Neon Cortex-A8 possui suporte ao VFPV3, o Cortex-A5 possui suporte VFPV4 e NEON2 (como para: se você usa -mfloat-abi = Hard, você ignora a capacidade de imitar em instruções ausentes de software, para que não possa gerar código que será otimizado para VFPV4, mas seria executado no VFPV3 com emulação de software)