Che cosa è un metodo migliore per il confezionamento 4 byte in 3 di questo?

https://stackoverflow.com/questions/1664563

12-09-2019
|

Domanda

Ho un array di valori tutti ben all'interno della gamma 0 - 63, e decisi ho potuto imballare ogni 4 byte in 3 perché i valori richiedono solo 6 bit e potrebbero usare i 2bits supplementari per memorizzare i primi 2 bit della valore successivo e così via.

Non avendo mai fatto prima ho usato la dichiarazione switch e una variabile nextbit (una macchina a stati come il dispositivo) per fare l'imballaggio e tenere traccia del bit di partenza. Sono convinto però, ci deve essere un modo migliore.

Suggerimenti / indizi per favore, ma non rovinare il mio divertimento; -)

Gli eventuali problemi di portabilità per quanto riguarda grandi little endian /?

btw: Ho verificato questo codice sta lavorando, per il disimballaggio di nuovo e il confronto con l'ingresso. E no, non è compiti a casa, solo un esercizio che mi sono messo.

/* build with gcc -std=c99 -Wconversion */
#define ASZ 400
typedef unsigned char uc_;
uc_ data[ASZ];
int i;
for (i = 0; i < ASZ; ++i) {
    data[i] = (uc_)(i % 0x40);
}
size_t dl = sizeof(data);
printf("sizeof(data):%z\n",dl);
float fpl = ((float)dl / 4.0f) * 3.0f;
size_t pl = (size_t)(fpl > (float)((int)fpl) ? fpl + 1 : fpl);
printf("length of packed data:%z\n",pl);

for (i = 0; i < dl; ++i)
    printf("%02d  ", data[i]);
printf("\n");

uc_ * packeddata = calloc(pl, sizeof(uc_));
uc_ * byte = packeddata;
uc_ nextbit = 1;
for (int i = 0; i < dl; ++i) {
    uc_ m = (uc_)(data[i] & 0x3f);
    switch(nextbit) {
    case 1:
        /* all 6 bits of m into first 6 bits of byte: */
        *byte = m;
        nextbit = 7;
        break;
    case 3:
        /* all 6 bits of m into last 6 bits of byte: */
        *byte++ = (uc_)(*byte | (m << 2));
        nextbit = 1;
        break;
    case 5:
        /* 1st 4 bits of m into last 4 bits of byte: */
        *byte++ = (uc_)(*byte | ((m & 0x0f) << 4));
        /* 5th and 6th bits of m into 1st and 2nd bits of byte: */
        *byte = (uc_)(*byte | ((m & 0x30) >> 4));
        nextbit = 3;
        break;
    case 7:
        /* 1st 2 bits of m into last 2 bits of byte: */
        *byte++ = (uc_)(*byte | ((m & 0x03) << 6));
        /* next (last) 4 bits of m into 1st 4 bits of byte: */
        *byte = (uc_)((m & 0x3c) >> 2);
        nextbit = 5;
        break;
    }
}

Soluzione

Quindi, questo è un po 'come `codice-golf` , giusto?

#include <stdlib.h>
#include <string.h>

static void pack2(unsigned char *r, unsigned char *n) {
  unsigned v = n[0] + (n[1] << 6) + (n[2] << 12) + (n[3] << 18);
  *r++ = v;
  *r++ = v >> 8;
  *r++ = v >> 16;
}

unsigned char *apack(const unsigned char *s, int len) {
  unsigned char *s_end = s + len,
                *r, *result = malloc(len/4*3+3),
                lastones[4] = { 0 };
  if (result == NULL)
    return NULL;
  for(r = result; s + 4 <= s_end; s += 4, r += 3)
    pack2(r, s);
  memcpy(lastones, s, s_end - s);
  pack2(r, lastones);
  return result;
}

Altri suggerimenti

Controlla l'IETF RFC 4648 per 'The Base16, Base32 e Base64 dati Encodings' .

Codice parziale critica:

size_t dl = sizeof(data);
printf("sizeof(data):%d\n",dl);
float fpl = ((float)dl / 4.0f) * 3.0f;
size_t pl = (size_t)(fpl > (float)((int)fpl) ? fpl + 1 : fpl);
printf("length of packed data:%d\n",pl);

Non utilizzare il materiale in virgola mobile - basta usare interi. E utilizzare '% z' stampare 'size_t' valori -. Assumendo che tu hai una libreria C99

size_t pl = ((dl + 3) / 4) * 3;

Credo che il ciclo potrebbe essere semplificata che fare con le unità di ingresso 3 byte fino a quando hai un'unità parziale sinistra sopra, e quindi si tratta di un resto di 1 o 2 byte come casi particolari. Prendo atto che la norma di riferimento dice che si utilizza uno o due segni '=' al pad alla fine.

Ho un encoder Base64 e decodificare che fa un po 'di quello. Si sta descrivendo la parte 'decodifica' di Base64 - dove il codice Base64 ha 4 byte di dati che devono essere conservati in soli 3 - il tuo codice di imballaggio. L'encoder Base64 corrisponde al unpacker avrete bisogno.

Base-64 Decoder

Nota: base_64_inv è una matrice di 256 valori, uno per ciascun valore di input byte possibile; definisce il valore decodificato corretto per ogni byte codificato. Nella codifica Base64, questa è una scarsa array - 3/4 zeri. Analogamente, base_64_map è la mappatura tra un valore 0..63 e il valore di memoria corrispondente.

enum { DC_PAD = -1, DC_ERR = -2 };

static int decode_b64(int c)
{
    int b64 = base_64_inv[c];

    if (c == base64_pad)
        b64 = DC_PAD;
    else if (b64 == 0 && c != base_64_map[0])
        b64 = DC_ERR;
    return(b64);
}

/* Decode 4 bytes into 3 */
static int decode_quad(const char *b64_data, char *bin_data)
{
    int b0 = decode_b64(b64_data[0]);
    int b1 = decode_b64(b64_data[1]);
    int b2 = decode_b64(b64_data[2]);
    int b3 = decode_b64(b64_data[3]);
    int bytes;

    if (b0 < 0 || b1 < 0 || b2 == DC_ERR || b3 == DC_ERR || (b2 == DC_PAD && b3 != DC_PAD))
        return(B64_ERR_INVALID_ENCODED_DATA);
    if (b2 == DC_PAD && (b1 & 0x0F) != 0)
        /* 3rd byte is '='; 2nd byte must end with 4 zero bits */
        return(B64_ERR_INVALID_TRAILING_BYTE);
    if (b2 >= 0 && b3 == DC_PAD && (b2 & 0x03) != 0)
        /* 4th byte is '='; 3rd byte is not '=' and must end with 2 zero bits */
        return(B64_ERR_INVALID_TRAILING_BYTE);
    bin_data[0] = (b0 << 2) | (b1 >> 4);
    bytes = 1;
    if (b2 >= 0)
    {
        bin_data[1] = ((b1 & 0x0F) << 4) | (b2 >> 2);
        bytes = 2;
    }
    if (b3 >= 0)
    {
        bin_data[2] = ((b2 & 0x03) << 6) | (b3);
        bytes = 3;
    }
    return(bytes);
}

/* Decode input Base-64 string to original data.  Output length returned, or negative error */
int base64_decode(const char *data, size_t datalen, char *buffer, size_t buflen)
{
    size_t outlen = 0;
    if (datalen % 4 != 0)
        return(B64_ERR_INVALID_ENCODED_LENGTH);
    if (BASE64_DECLENGTH(datalen) > buflen)
        return(B64_ERR_OUTPUT_BUFFER_TOO_SMALL);
    while (datalen >= 4)
    {
        int nbytes = decode_quad(data, buffer + outlen);
        if (nbytes < 0)
            return(nbytes);
        outlen += nbytes;
        data += 4;
        datalen -= 4;
    }
    assert(datalen == 0);   /* By virtue of the %4 check earlier */
    return(outlen);
}

Base-64 Encoder

/* Encode 3 bytes of data into 4 */
static void encode_triplet(const char *triplet, char *quad)
{
    quad[0] = base_64_map[(triplet[0] >> 2) & 0x3F];
    quad[1] = base_64_map[((triplet[0] & 0x03) << 4) | ((triplet[1] >> 4) & 0x0F)];
    quad[2] = base_64_map[((triplet[1] & 0x0F) << 2) | ((triplet[2] >> 6) & 0x03)];
    quad[3] = base_64_map[triplet[2] & 0x3F];
}

/* Encode 2 bytes of data into 4 */
static void encode_doublet(const char *doublet, char *quad, char pad)
{
    quad[0] = base_64_map[(doublet[0] >> 2) & 0x3F];
    quad[1] = base_64_map[((doublet[0] & 0x03) << 4) | ((doublet[1] >> 4) & 0x0F)];
    quad[2] = base_64_map[((doublet[1] & 0x0F) << 2)];
    quad[3] = pad;
}

/* Encode 1 byte of data into 4 */
static void encode_singlet(const char *singlet, char *quad, char pad)
{
    quad[0] = base_64_map[(singlet[0] >> 2) & 0x3F];
    quad[1] = base_64_map[((singlet[0] & 0x03) << 4)];
    quad[2] = pad;
    quad[3] = pad;
}

/* Encode input data as Base-64 string.  Output length returned, or negative error */
static int base64_encode_internal(const char *data, size_t datalen, char *buffer, size_t buflen, char pad)
{
    size_t outlen = BASE64_ENCLENGTH(datalen);
    const char *bin_data = (const void *)data;
    char *b64_data = (void *)buffer;

    if (outlen > buflen)
        return(B64_ERR_OUTPUT_BUFFER_TOO_SMALL);
    while (datalen >= 3)
    {
        encode_triplet(bin_data, b64_data);
        bin_data += 3;
        b64_data += 4;
        datalen -= 3;
    }
    b64_data[0] = '\0';

    if (datalen == 2)
        encode_doublet(bin_data, b64_data, pad);
    else if (datalen == 1)
        encode_singlet(bin_data, b64_data, pad);
    b64_data[4] = '\0';
    return((b64_data - buffer) + strlen(b64_data));
}

I complicare la vita per avere a che fare con un prodotto che utilizza un alfabeto variante per la codifica Base64, e inoltre gestisce non ai dati pad - quindi l'argomento 'pad' (che può essere zero per 'padding nullo' o '= 'imbottitura standard. il 'allineamento base_64_map' contiene l'alfabeto da utilizzare per i valori 6 bit nell'intervallo 0..63.

Un altro modo più semplice per farlo sarebbe quello di utilizzare campi di bit. Uno degli angoli meno conosciuti di sintassi struct C è il grande campo. Diciamo che ha la seguente struttura:

struct packed_bytes {
    byte chunk1 : 6;
    byte chunk2 : 6;
    byte chunk3 : 6;
    byte chunk4 : 6;
};

Questo dichiara chunk1, chunk2, chunk3 e chunk4 avere il tipo byte ma solo prendere 6 bit nella struttura. Il risultato è che sizeof(struct packed_bytes) == 3. Ora tutto ciò che serve è un po 'la funzione di prendere la matrice e dump nella struttura in questo modo:

void
dump_to_struct(byte *in, struct packed_bytes *out, int count)
{
    int i, j;
    for (i = 0; i < (count / 4); ++i) {
        out[i].chunk1 = in[i * 4];
        out[i].chunk2 = in[i * 4 + 1];
        out[i].chunk3 = in[i * 4 + 2];
        out[i].chunk4 = in[i * 4 + 3];
    }
    // Finish up
    switch(struct % 4) {
    case 3:
        out[count / 4].chunk3 = in[(count / 4) * 4 + 2];
    case 2:
        out[count / 4].chunk2 = in[(count / 4) * 4 + 1];
    case 1:
        out[count / 4].chunk1 = in[(count / 4) * 4];
    }
}

ci si va, ora avete una serie di struct packed_bytes che si può facilmente leggere usando la struct sopra.

Invece di usare uno statemachine si può semplicemente utilizzare un contatore per il numero di bit sono già utilizzati nel byte corrente, da cui è possibile derivare direttamente il turno-offset e se non si traboccare nel byte successivo. Per quanto riguarda l'endianess: Fino a quando si utilizza solo un singolo tipo di dati (che è non reinterpretare puntatore a tipi di diverse dimensioni (ad esempio int* a =...;short* b=(short*) a;) non si dovrebbe ottenere problemi con endianess nella maggior parte dei casi

Prendendo elementi di codice di DigitalRoss compatto, il suggerimento di Grizzly, e il mio codice, ho scritto la mia risposta personale alla fine. Anche se DigitalRoss fornisce una risposta di lavoro utilizzabile, il mio utilizzo di esso senza capire, non avrebbe fornito la stessa soddisfazione da imparare qualcosa. Per questo motivo ho scelto di basare la mia risposta sul mio codice originale.

Ho anche scelto di ignorare i consigli Jonathon Leffler dà a evitare l'uso di aritmetica in virgola mobile per il calcolo della lunghezza dei dati al sacco. Sia il metodo consigliato proposta - stesso DigitalRoss utilizza inoltre, aumenta la lunghezza dei dati impacchettati di ben tre byte. Certo questo non è molto, ma è anche evitabile con l'uso di calcoli in virgola mobile.

Ecco il codice, critiche benvenuto:

/* built with gcc -std=c99 */
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

unsigned char *
pack(const unsigned char * data, size_t len, size_t * packedlen)
{
    float fpl = ((float)len / 4.0f) * 3.0f;
    *packedlen = (size_t)(fpl > (float)((int)fpl) ? fpl + 1 : fpl);
    unsigned char * packed = malloc(*packedlen);
    if (!packed)
        return 0;
    const unsigned char * in = data;
    const unsigned char * in_end = in + len;
    unsigned char * out;
    for (out = packed; in + 4 <= in_end; in += 4) {
        *out++ = in[0] | ((in[1] & 0x03) << 6);
        *out++ = ((in[1] & 0x3c) >> 2) | ((in[2] & 0x0f) << 4);
        *out++ = ((in[2] & 0x30) >> 4) | (in[3] << 2);
    }
    size_t lastlen = in_end - in;
    if (lastlen > 0) {
        *out = in[0];
        if (lastlen > 1) {
            *out++ |= ((in[1] & 0x03) << 6);
            *out = ((in[1] & 0x3c) >> 2);
            if (lastlen > 2) {
                *out++ |= ((in[2] & 0x0f) << 4);
                *out = ((in[2] & 0x30) >> 4);
                if (lastlen > 3)
                    *out |= (in[3] << 2);
            }
        }
    }
    return packed;
}

int main()
{
    size_t i;
    unsigned char data[] = {
        12, 15, 40, 18,
        26, 32, 50, 3,
        7,  19, 46, 10,
        25, 37, 2,  39,
        60, 59, 0,  17,
        9,  29, 13, 54,
        5,  6,  47, 32
    };
    size_t datalen = sizeof(data);
    printf("unpacked datalen: %td\nunpacked data\n", datalen);
    for (i = 0; i < datalen; ++i)
        printf("%02d  ", data[i]);
    printf("\n");
    size_t packedlen;
    unsigned char * packed = pack(data, sizeof(data), &packedlen);
    if (!packed) {
        fprintf(stderr, "Packing failed!\n");
        return EXIT_FAILURE;
    }
    printf("packedlen: %td\npacked data\n", packedlen);
    for (i = 0; i < packedlen; ++i)
        printf("0x%02x ", packed[i]);
    printf("\n");
    free(packed);
    return EXIT_SUCCESS;
}

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow

Che cosa è un metodo migliore per il confezionamento 4 byte in 3 di questo?

Quindi, questo è un po 'come codice-golf , giusto?

Base-64 Decoder

Base-64 Encoder

Quindi, questo è un po 'come `codice-golf` , giusto?