Pergunta
De acordo com a o gcc docs , memcmp não é uma função intrínseca do GCC. Se você quisesse acelerar memcmp do glibc sob gcc, você precisaria usar os intrínsecos de nível inferior definidos nos docs. No entanto, quando a pesquisa em torno da internet, parece que muitas pessoas têm a impressão de que memcmp é uma função interna. É para alguns compiladores e não para outros?
Solução
O seu link parece ser para o específico da arquitetura x86 built-in funções, de acordo com este memcmp é implementado como um independente de arquitetura built-in por gcc.
Editar:
Compilar o código seguinte com Cygwin versão gcc 3.3.1 para i686, -O2:
#include <stdlib.h>
struct foo {
int a;
int b;
} ;
int func(struct foo *x, struct foo *y)
{
return memcmp(x, y, sizeof (struct foo));
}
produz o seguinte resultado (nota que a chamada para memcmp () é convertido a um byte de 8- "repz CMPSB"):
0: 55 push %ebp
1: b9 08 00 00 00 mov $0x8,%ecx
6: 89 e5 mov %esp,%ebp
8: fc cld
9: 83 ec 08 sub $0x8,%esp
c: 89 34 24 mov %esi,(%esp)
f: 8b 75 08 mov 0x8(%ebp),%esi
12: 89 7c 24 04 mov %edi,0x4(%esp)
16: 8b 7d 0c mov 0xc(%ebp),%edi
19: f3 a6 repz cmpsb %es:(%edi),%ds:(%esi)
1b: 0f 92 c0 setb %al
1e: 8b 34 24 mov (%esp),%esi
21: 8b 7c 24 04 mov 0x4(%esp),%edi
25: 0f 97 c2 seta %dl
28: 89 ec mov %ebp,%esp
2a: 5d pop %ebp
2b: 28 c2 sub %al,%dl
2d: 0f be c2 movsbl %dl,%eax
30: c3 ret
31: 90 nop
Outras dicas
Note que a rotina repz CMPSB pode não ser mais rápida do que memcmp da glibc. Em meus testes, na verdade, é de não mais rápido, mesmo quando se comparam apenas alguns bytes.
Agora, em 2017, GCC e Clang parece ter algumas otimizações para buffers de tamanhos 1, 2, 4, 8 e alguns outros, por exemplo, 3, 5 e múltiplo de 8.