ARM NEON 用にコンパイル中に不明な GCC エラーが発生しました (重大)
-
26-09-2019 - |
質問
ARM NEON Cortex-A8 ベースのプロセッサ ターゲットを持っています。NEON を利用してコードを最適化していました。しかし、コードをコンパイルすると、この奇妙なエラーが発生します。これを修正する方法がわかりません。
ホスト上の Code Sourcery (PART2) を使用して、次のコード (PART 1) をコンパイルしようとしています。そして、この奇妙なエラーが発生します(PART3)。ここで私は何か間違ったことをしていますか?他の人がこれをコンパイルして、同じコンパイル エラーが発生するかどうかを確認できますか?
奇妙な部分は、コード内で else if(step_size == 4)
コードの一部を削除すると、エラーは消えます。しかし、残念なことに、これがないと私の最適化は完了しないので、それが必要です。
最初は、(ホスト上の) CodeSourcey コンパイラに問題があるのではないかと思い、ターゲット上でプログラムを直接コンパイルしました (ターゲットは Ubuntu 上で実行されます)。そこで gcc を使用しましたが、もう一度同じエラーが発生し、コメントアウトすると、 else if(step_size == 4)
部分的に削除すると、エラーは消えます。
ヘルプ!
パート1
#include<stdio.h>
#include"arm_neon.h"
#define IMAGE_HEIGHT 480
#define IMAGE_WIDTH 640
float32_t integral_image[IMAGE_HEIGHT][IMAGE_WIDTH];
float32x4_t box_area_compute3(int, int , int , int , unsigned int , float);
inline int min(int, int);
int main()
{
box_area_compute3(1, 1, 4, 4, 2, 0);
return 0;
}
float32x4_t box_area_compute3(int row, int col, int num_rows, int num_cols, unsigned int step_size, float three)
{
unsigned int height = IMAGE_HEIGHT;
unsigned int width = IMAGE_WIDTH;
int temp_row = row + num_rows;
int temp_col = col + num_cols;
int r1 = (min(row, height))- 1 ;
int r2 = (min(temp_row, height)) - 1;
int c1 = (min(col, width)) - 1;
int c2 = (min(temp_col, width)) - 1;
float32x4_t v128_areas;
if(step_size == 2)
{
float32x4x2_t top_left, top_right, bottom_left, bottom_right;
top_left = vld2q_f32((float32_t *)integral_image[r1] + c1);
top_right = vld2q_f32((float32_t *)integral_image[r1] + c2);
bottom_left = vld2q_f32((float32_t *)integral_image[r2] + c1);
bottom_right = vld2q_f32((float32_t *)integral_image[r2] + c2);
v128_areas = vsubq_f32(vsubq_f32(vaddq_f32(top_left.val[0], bottom_right.val[0]), top_right.val[0]), bottom_left.val[0]);
}
else if(step_size == 4)
{
float32x4x4_t top_left, top_right, bottom_left, bottom_right;
top_left = vld4q_f32((float32_t *)integral_image[r1] + c1);
top_right = vld4q_f32((float32_t *)integral_image[r1] + c2);
bottom_left = vld4q_f32((float32_t *)integral_image[r2] + c1);
bottom_right = vld4q_f32((float32_t *)integral_image[r2] + c2);
v128_areas = vsubq_f32(vsubq_f32(vaddq_f32(top_left.val[0], bottom_right.val[0]), top_right.val[0]), bottom_left.val[0]);
}
if(three == 3.0)
v128_areas = vmulq_n_f32(v128_areas, three);
return v128_areas;
}
inline int min(int X, int Y)
{
return (X < Y ? X : Y);
}
パート2
arm-none-linux-gnueabi-gcc -O0 -g3 -Wall -c -fmessage-length=0 -fcommon -MMD -MP -MF"main.d" -MT"main.d" -mcpu=cortex-a8 -marm -mfloat-abi=hard -mfpu=neon-vfpv4 -o"main.o" "../main.c"
パート 3
../main.c: In function 'box_area_compute3':
../main.c:65: error: unable to find a register to spill in class 'GENERAL_REGS'
../main.c:65: error: this is the insn:
(insn 226 225 227 5 c:\program files\codesourcery\sourcery g++\bin\../lib/gcc/arm-none-linux-gnueabi/4.4.1/include/arm_neon.h:9863 (parallel [
(set (reg:XI 148 [ D.17028 ])
(unspec:XI [
(mem:XI (reg:SI 3 r3 [301]) [0 S64 A64])
(reg:XI 148 [ D.17028 ])
(unspec:V4SF [
(const_int 0 [0x0])
] 191)
] 111))
(set (reg:SI 3 r3 [301])
(plus:SI (reg:SI 3 r3 [301])
(const_int 32 [0x20])))
]) 1605 {neon_vld4qav4sf} (nil))
../main.c:65: confused by earlier errors, bailing out
cs-make: *** [main.o] Error 1
解決 2
さて、私はこの問題についての規範のSourceryに連絡をしていたし、彼らはGCCコンパイラのバグとしてこれを検討しています。だから、アセンブリ代わりTEH組み込み関数を使用するにdo_it4(){...}関数を書きました。今では良い作品!
他のヒント
私はそれのためのツールチェーンを持っていないので、私はこれをテストすることはできませんが、このタイプのエラーは、多くの場合、コードを少しrewordingことで回避することができます。一般に、これは起こるべきではありません、それはバグとして報告しなければならないが、あなたはおそらくあまりコンパイラの残りの部分よりもテストされ、研磨されているプロセッサの特定の機能を使用しているます。
これは、レジスタスピルエラーであり、あなたはそれが(その上で起こっていくつかのエイリアスがあるかもしれないことを恐れのうちに必要以上にいくつかのポインタは、コンパイラがレジスタに、より多くのデータをロードしようとすることができることを私は非常に疑わしい関与持っているので、おそらく実際に)起きていません。私はその可能性に対処下記だけでなく、(それがそうであるように見えないかもしれませんが)、コンパイラの視点からのコードの複雑さを軽減することが他のいくつかのことを行うます。
#include<stdio.h>
#include"arm_neon.h"
#define IMAGE_HEIGHT 480
#define IMAGE_WIDTH 640
float32_t integral_image[IMAGE_HEIGHT][IMAGE_WIDTH];
float32x4_t box_area_compute3(int, int , int , int , unsigned int , float);
inline int min(int, int);
int main()
{
box_area_compute3(1, 1, 4, 4, 2, 0);
return 0;
}
/* By putting these in separate functions the compiler will initially
* think about them by themselves, without the complications of the
* surrounding code. This may give it the abiltiy to optimise the
* code somewhat before trying to inline it.
* This may also serve to make it more obvious to the compiler that
* the local variables are dead after their use (since they are
* dead after the call returns, and that the lifetimes of some variable
* cannot actually overlap (hopefully reducing the register needs).
*/
static inline float32x4_t do_it2(float32_t *tl, float32_t *tr, float32_t *bl, float32_t * br) {
float32x4x2_t top_left, top_right, bottom_left, bottom_right;
float32x4_t A, B;
top_left = vld2q_f32(tl);
top_right = vld2q_f32(tr);
bottom_left = vld2q_f32(bl);
bottom_right = vld2q_f32(br);
/* By spreading this across several statements I have created several
* additional sequence points. The compiler does not think that it
* has to dereference all of the pointers before doing any of the
* computations.... maybe. */
A = vaddq_f32(*top_left.val, *bottom_right.val);
B = vsubq_f32(A, *top_right.val);
return vsubq_f32(B, *bottom_left);
}
static inline float32x4_t do_it4(float32_t *tl, float32_t *tr, float32_t *bl, float32_t * br) {
float32x4x4_t top_left, top_right, bottom_left, bottom_right;
float32x4_t A, B;
top_left = vld4q_f32(tl);
top_right = vld4q_f32(tr);
bottom_left = vld4q_f32(bl);
bottom_right = vld4q_f32(br);
A = vaddq_f32(*top_left.val, *bottom_right.val);
B = vsubq_f32(A, *top_right.val);
return vsubq_f32(B, *bottom_left);
}
float32x4_t box_area_compute3(int row, int col, int num_rows, int num_cols, unsigned int step_size, float three)
{
unsigned int height = IMAGE_HEIGHT;
unsigned int width = IMAGE_WIDTH;
int temp_row = row + num_rows;
int temp_col = col + num_cols;
int r1 = (min(row, height))- 1 ;
int r2 = (min(temp_row, height)) - 1;
int c1 = (min(col, width)) - 1;
int c2 = (min(temp_col, width)) - 1;
float32x4_t v128_areas;
float32_t *tl = (float32_t *)integral_image[r1] + c1;
float32_t *tr = (float32_t *)integral_image[r1] + c2;
float32_t *bl = (float32_t *)integral_image[r2] + c1;
float32_t *br = (float32_t *)integral_image[r2] + c2;
switch (step_size) {
case 2:
v128_areas = do_it2(tl, tr, bl, br);
break;
case 4:
v128_areas = do_it4(tl, tr, bl, br);
break;
}
if(three == 3.0)
v128_areas = vmulq_n_f32(v128_areas, three);
return v128_areas;
}
inline int min(int X, int Y)
{
return (X < Y ? X : Y);
}
私はこのことができますし、私はすべてのエラーを導入していなかったことをことを願っています。
行:
float32x4x4_t top_left, top_right, bottom_left, bottom_right;
は、すべての16のQレジスタを使用しています!これは、コンパイラはこれを扱うことができないことにも驚くことではありません。おそらく少数のレジスタを使用するために再書き込みすることによって、これを固定した可能性があります。
ARM NEONのCortex-A8はVFPv3のサポートを持っている、のCortex-A5は、用としてvfpv4とneon2サポートし、(持っている:あなたは、ハード-mfloat-ABI =を使用する場合は、コードを生成することはできませんので、あなたは、指示に不足しているソフトウェアでエミュレートするための能力をスキップしていますvfpv4用に最適化されるだろうが、ソフトウェアエミュレーションとVFPv3の上で実行されます)