CS:APP 第五、六章

Fattaf

2025-08-27

CS:APP

CPU 信息

i7 Tigerlake

界限	整数加法	整数乘法	浮点数加法	浮点数乘法
延迟	1	3	4	4
吞吐量	0.5	1	0.5	0.5

缓存信息

L1 d-cache：

高速缓存大小（ $C$ ）	相连度（ $E$ ）	块大小（ $B$ ）	组数（ $S$ ）
48KB	12	64B	64

家庭作业

5.18

CPE = 1.07

double poly(double a[], double x, long degree) {
  double result0 = 0;
  double result1 = 0;
  double result2 = 0;
  double result3 = 0;
  double result4 = 0;
  double result5 = 0;
  double result6 = 0;
  double result7 = 0;
  double result8 = 0;
  double result9 = 0;
  double resultA = 0;
  double resultB = 0;
  double resultC = 0;
  double resultD = 0;
  double resultE = 0;
  degree++;
  long remaining = degree % 15, align = degree - remaining;
  switch (remaining) {
  case 14:
    resultD = a[align + 13];
  case 13:
    resultC = a[align + 12];
  case 12:
    resultB = a[align + 11];
  case 11:
    resultA = a[align + 10];
  case 10:
    result9 = a[align + 9];
  case 9:
    result8 = a[align + 8];
  case 8:
    result7 = a[align + 7];
  case 7:
    result6 = a[align + 6];
  case 6:
    result5 = a[align + 5];
  case 5:
    result4 = a[align + 4];
  case 4:
    result3 = a[align + 3];
  case 3:
    result2 = a[align + 2];
  case 2:
    result1 = a[align + 1];
  case 1:
    result0 = a[align];
  }
  double X = x * x * x;
  X *= X * x;
  X *= X * x;
  for (long i = align; i > 0; i -= 15) {
    result0 = result0 * X + a[i - 15];
    result1 = result1 * X + a[i - 14];
    result2 = result2 * X + a[i - 13];
    result3 = result3 * X + a[i - 12];
    result4 = result4 * X + a[i - 11];
    result5 = result5 * X + a[i - 10];
    result6 = result6 * X + a[i - 9];
    result7 = result7 * X + a[i - 8];
    result8 = result8 * X + a[i - 7];
    result9 = result9 * X + a[i - 6];
    resultA = resultA * X + a[i - 5];
    resultB = resultB * X + a[i - 4];
    resultC = resultC * X + a[i - 3];
    resultD = resultD * X + a[i - 2];
    resultE = resultE * X + a[i - 1];
  }
  return (((((((((((((
    resultE * x +
    resultD) * x +
    resultC) * x +
    resultB) * x +
    resultA) * x +
    result9) * x +
    result8) * x +
    result7) * x + 
    result6) * x + 
    result5) * x + 
    result4) * x +
    result3) * x +
    result2) * x +
    result1) * x + 
    result0;
}

5.19

CPE = 1.28

/* Compute prefix sum of vector a */
void psum(float a[], float p[], long n) {
  p[0] = a[0];
  float sum = a[0];
  long limit = n - 14;
  long i;
  for (i = 1; i < limit; i += 15) {
    float a2 = a[i + 1], a4 = a[i + 3], a8 = a[i + 7];
    float p1 = sum + a[i], sum2_3 = a2 + a[i + 2];
    float sum4_5 = a4 + a[i + 4], sum6_7 = a[i + 5] + a[i + 6];
    float sum8_9 = a8 + a[i + 8], sum10_11 = a[i + 9] + a[i + 10];
    float sum12_13 = a[i + 11] + a[i + 12], sum14_15 = a[i + 13] + a[i + 14];
    float p3 = p1 + sum2_3;
    float sum4_6 = sum4_5 + a[i + 5], sum4_7 = sum4_5 + sum6_7;
    float sum8_10 = sum8_9 + a[i + 9], sum8_11 = sum8_9 + sum10_11;
    float sum12_14 = sum12_13 + a[i + 13], sum12_15 = sum12_13 + sum14_15;
    float p7 = p3 + sum4_7;
    float sum8_14 = sum8_11 + sum12_14, sum8_15 = sum8_11 + sum12_15;
    float sum8_12 = sum8_11 + a[i + 11], sum8_13 = sum8_11 + sum12_13;

    p[i] = p1, p[i + 1] = p1 + a2;
    p[i + 2] = p3, p[i + 3] = p3 + a4;
    p[i + 4] = p3 + sum4_5, p[i + 5] = p3 + sum4_6;
    p[i + 6] = p7, p[i + 7] = p7 + a8;
    p[i + 8] = p7 + sum8_9, p[i + 9] = p7 + sum8_10;
    p[i + 10] = p7 + sum8_11, p[i + 11] = p7 + sum8_12;
    p[i + 12] = p7 + sum8_13, p[i + 13] = p7 + sum8_14;
    sum = p[i + 14] = p7 + sum8_15;
  }

  for (; i < n; i++) {
  	p[i] = a[i] + p[i - 1];
  }
}

SIMD.6

CPE = 0.27

点击展开

typedef double vec_t __attribute__ ((vector_size(32)));

double poly(double a[], double x, long degree) {
  double *b = a;
  while ((size_t) a % 32 != 0 && degree) {
    a++;
    degree--;
  }

  vec_t vec0, vec1, vec2, vec3, 
        vec4, vec5, vec6, vec7,
        vec8, vec9, vecA, vecB,
        vecC, vecD, vecE;
  for (int i = 0; i < 4; i++) {
    vec0[i] = 0;
    vec1[i] = 0;
    vec2[i] = 0;
    vec3[i] = 0;
    vec4[i] = 0;
    vec5[i] = 0;
    vec6[i] = 0;
    vec7[i] = 0;
  }

  degree++;
  long remaining = degree % 60, align = degree - remaining;
  switch (remaining) {
  case 59:
    vecE[2] = a[align + 58];
  case 58:
    vecE[1] = a[align + 57];
  case 57:
    vecE[0] = a[align + 56];
  case 56:
    vecD[3] = a[align + 55];
  case 55:
    vecD[2] = a[align + 54];
  case 54:
    vecD[1] = a[align + 53];
  case 53:
    vecD[0] = a[align + 52];
  case 52:
    vecC[3] = a[align + 51];
  case 51:
    vecC[2] = a[align + 50];
  case 50:
    vecC[1] = a[align + 49];
  case 49:
    vecC[0] = a[align + 48];
  case 48:
    vecB[3] = a[align + 47];
  case 47:
    vecB[2] = a[align + 46];
  case 46:
    vecB[1] = a[align + 45];
  case 45:
    vecB[0] = a[align + 44];
  case 44:
    vecA[3] = a[align + 43];
  case 43:
    vecA[2] = a[align + 42];
  case 42:
    vecA[1] = a[align + 41];
  case 41:
    vecA[0] = a[align + 40];
  case 40:
    vec9[3] = a[align + 39];
  case 39:
    vec9[2] = a[align + 38];
  case 38:
    vec9[1] = a[align + 37];
  case 37:
    vec9[0] = a[align + 36];
  case 36:
    vec8[3] = a[align + 35];
  case 35:
    vec8[2] = a[align + 34];
  case 34:
    vec8[1] = a[align + 33];
  case 33:
    vec8[0] = a[align + 32];
  case 32:
    vec7[3] = a[align + 31];
  case 31:
    vec7[2] = a[align + 30];
  case 30:
    vec7[1] = a[align + 29];
  case 29:
    vec7[0] = a[align + 28];
  case 28:
    vec6[3] = a[align + 27];
  case 27:
    vec6[2] = a[align + 26];
  case 26:
    vec6[1] = a[align + 25];
  case 25:
    vec6[0] = a[align + 24];
  case 24:
    vec5[3] = a[align + 23];
  case 23:
    vec5[2] = a[align + 22];
  case 22:
    vec5[1] = a[align + 21];
  case 21:
    vec5[0] = a[align + 20];
  case 20:
    vec4[3] = a[align + 19];
  case 19:
    vec4[2] = a[align + 18];
  case 18:
    vec4[1] = a[align + 17];
  case 17:
    vec4[0] = a[align + 16];
  case 16:
    vec3[3] = a[align + 15];
  case 15:
    vec3[2] = a[align + 14];
  case 14:
    vec3[1] = a[align + 13];
  case 13:
    vec3[0] = a[align + 12];
  case 12:
    vec2[3] = a[align + 11];
  case 11:
    vec2[2] = a[align + 10];
  case 10:
    vec2[1] = a[align + 9];
  case 9:
    vec2[0] = a[align + 8];
  case 8:
    vec1[3] = a[align + 7];
  case 7:
    vec1[2] = a[align + 6];
  case 6:
    vec1[1] = a[align + 5];
  case 5:
    vec1[0] = a[align + 4];
  case 4:
    vec0[3] = a[align + 3];
  case 3:
    vec0[2] = a[align + 2];
  case 2:
    vec0[1] = a[align + 1];
  case 1:
    vec0[0] = a[align + 0];
  }

  double X = x * x * x;
  X *= X * x;
  X *= X * x;
  X *= X;
  X *= X;
  vec_t mul = {X, X, X, X};
  for (long i = align; i > 0; i -= 60) {
    vec0 = vec0 * mul + *((vec_t*) &a[i - 60]);
    vec1 = vec1 * mul + *((vec_t*) &a[i - 56]);
    vec2 = vec2 * mul + *((vec_t*) &a[i - 52]);
    vec3 = vec3 * mul + *((vec_t*) &a[i - 48]);
    vec4 = vec4 * mul + *((vec_t*) &a[i - 44]);
    vec5 = vec5 * mul + *((vec_t*) &a[i - 40]);
    vec6 = vec6 * mul + *((vec_t*) &a[i - 36]);
    vec7 = vec7 * mul + *((vec_t*) &a[i - 32]);
    vec8 = vec8 * mul + *((vec_t*) &a[i - 28]);
    vec9 = vec9 * mul + *((vec_t*) &a[i - 24]);
    vecA = vecA * mul + *((vec_t*) &a[i - 20]);
    vecB = vecB * mul + *((vec_t*) &a[i - 16]);
    vecC = vecC * mul + *((vec_t*) &a[i - 12]);
    vecD = vecD * mul + *((vec_t*) &a[i - 8]);
    vecE = vecE * mul + *((vec_t*) &a[i - 4]);
  }

  double result = ((((((((((((((((((((((((((((((((((((((((((((((((((((((((((
    vecE[3] * x +
    vecE[2]) * x +
    vecE[1]) * x +
    vecE[0]) * x +
    vecD[3]) * x +
    vecD[2]) * x +
    vecD[1]) * x +
    vecD[0]) * x +
    vecC[3]) * x +
    vecC[2]) * x +
    vecC[1]) * x +
    vecC[0]) * x +
    vecB[3]) * x +
    vecB[2]) * x +
    vecB[1]) * x +
    vecB[0]) * x +
    vecA[3]) * x +
    vecA[2]) * x +
    vecA[1]) * x +
    vecA[0]) * x +
    vec9[3]) * x +
    vec9[2]) * x +
    vec9[1]) * x +
    vec9[0]) * x +
    vec8[3]) * x +
    vec8[2]) * x +
    vec8[1]) * x +
    vec8[0]) * x +
    vec7[3]) * x +
    vec7[2]) * x +
    vec7[1]) * x +
    vec7[0]) * x +
    vec6[3]) * x +
    vec6[2]) * x +
    vec6[1]) * x +
    vec6[0]) * x +
    vec5[3]) * x +
    vec5[2]) * x +
    vec5[1]) * x +
    vec5[0]) * x +
    vec4[3]) * x +
    vec4[2]) * x +
    vec4[1]) * x +
    vec4[0]) * x +
    vec3[3]) * x +
    vec3[2]) * x +
    vec3[1]) * x +
    vec3[0]) * x +
    vec2[3]) * x +
    vec2[2]) * x +
    vec2[1]) * x +
    vec2[0]) * x +
    vec1[3]) * x +
    vec1[2]) * x +
    vec1[1]) * x +
    vec1[0]) * x +
    vec0[3]) * x +
    vec0[2]) * x +
    vec0[1]) * x +
    vec0[0];

  while (a > b) {
    a--;
    result = result * x + *a;
  }
  return result;
}

perflab

https://git.gzezfisher.top/FISHER_/CSAPP-sol/src/branch/main/perf/kernels.c

cachelab

https://git.gzezfisher.top/FISHER_/CSAPP-sol/src/branch/main/cache