Better performance of Signal decoding

Hey,
I wrote some code (untested) to speed up the signal decoding function:
uint64_t Signal::decode(std::vector<uint8_t> & data)
{
    uint64_t mask;
    switch (bitSize)
    {
        case 0: mask = 0ull; break;
        case 1: mask = 1ull; break;
        case 2: mask = 3ull; break;
        case 3: mask = 7ull; break;
        case 4: mask = 15ull; break;
        case 5: mask = 31ull; break;
        case 6: mask = 63ull; break;
        case 7: mask = 127ull; break;
        case 8: mask = 255ull; break;
        case 9: mask = 511ull; break;
        case 10: mask = 1023ull; break;
        case 11: mask = 2047ull; break;
        case 12: mask = 4095ull; break;
        case 13: mask = 8191ull; break;
        case 14: mask = 16383ull; break;
        case 15: mask = 32767ull; break;
        case 16: mask = 65535ull; break;
        case 17: mask = 131071ull; break;
        case 18: mask = 262143ull; break;
        case 19: mask = 524287ull; break;
        case 20: mask = 1048575ull; break;
        case 21: mask = 2097151ull; break;
        case 22: mask = 4194303ull; break;
        case 23: mask = 8388607ull; break;
        case 24: mask = 16777215ull; break;
        case 25: mask = 33554431ull; break;
        case 26: mask = 67108863ull; break;
        case 27: mask = 134217727ull; break;
        case 28: mask = 268435455ull; break;
        case 29: mask = 536870911ull; break;
        case 30: mask = 1073741823ull; break;
        case 31: mask = 2147483647ull; break;
        case 32: mask = 4294967295ull; break;
        case 33: mask = 8589934591ull; break;
        case 34: mask = 17179869183ull; break;
        case 35: mask = 34359738367ull; break;
        case 36: mask = 68719476735ull; break;
        case 37: mask = 137438953471ull; break;
        case 38: mask = 274877906943ull; break;
        case 39: mask = 549755813887ull; break;
        case 40: mask = 1099511627775ull; break;
        case 41: mask = 2199023255551ull; break;
        case 42: mask = 4398046511103ull; break;
        case 43: mask = 8796093022207ull; break;
        case 44: mask = 17592186044415ull; break;
        case 45: mask = 35184372088831ull; break;
        case 46: mask = 70368744177663ull; break;
        case 47: mask = 140737488355327ull; break;
        case 48: mask = 281474976710655ull; break;
        case 49: mask = 562949953421311ull; break;
        case 50: mask = 1125899906842623ull; break;
        case 51: mask = 2251799813685247ull; break;
        case 52: mask = 4503599627370495ull; break;
        case 53: mask = 9007199254740991ull; break;
        case 54: mask = 18014398509481983ull; break;
        case 55: mask = 36028797018963967ull; break;
        case 56: mask = 72057594037927935ull; break;
        case 57: mask = 144115188075855871ull; break;
        case 58: mask = 288230376151711743ull; break;
        case 59: mask = 576460752303423487ull; break;
        case 60: mask = 1152921504606846975ull; break;
        case 61: mask = 2305843009213693951ull; break;
        case 62: mask = 4611686018427387903ull; break;
        case 63: mask = 9223372036854775807ull; break;
        case 64: mask = 18446744073709551615ull; break;
    }
    uint64_t buffer = 0;
    if (byteOrder == ByteOrder::BigEndian)
    {
        uint64_t p = *reinterpret_cast<uint64_t*>(&vdata[0]);
        switch (bitSize / 8 + (bitSize % 8 == 0 ? 0 : 1))
        {
        case 0: case 1: buffer = *p; break;
        case 2: buffer = (p & ~mask) | (vdata[0] << 8 | vdata[1]); break;
        case 3: buffer = (p & ~mask) | (vdata[0] << 16) | (vdata[1] << 8) | vdata[2]; break;
        case 4: buffer = (p & ~mask) | (vdata[0] << 24) | (vdata[1] << 16) | (vdata[2] << 8) | vdata[3]; break;
        case 5: buffer = (p & ~mask) | (vdata[0] << 32) | (vdata[1] << 24) | (vdata[2] << 16) | (vdata[3] << 8) | vdata[4]; break;
        case 6: buffer = (p & ~mask) | (vdata[0] << 40) | (vdata[1] << 32) | (vdata[2] << 24) | (vdata[3] << 16) | (vdata[4] << 8) | vdata[5]; break;
        case 7: buffer = (p & ~mask) | (vdata[0] << 48) | (vdata[1] << 40) | (vdata[2] << 32) | (vdata[3] << 24) | (vdata[4] << 16) | (vdata[5] << 8) | vdata[6]; break;
        case 8: buffer = (p & ~mask) | (vdata[0] << 56) | (vdata[1] << 48) | (vdata[2] << 40) | (vdata[3] << 32) | (vdata[4] << 24) | (vdata[5] << 16) | (vdata[6] << 8) | vdata[7]; break;
        }
    }
    else
    {
        buffer = *reinterpret_cast<uint64_t*>(&vdata[0]);
    }
    uint64_t result = (buffer >> startBit) & mask;
    if (signed)
    {
        result |= ~mask;
    }
    return result;
}
This should run much faster than the old code. I also guess there is somre more improvement potential in my code.
Comments (22)