テクニカルノート

Intel Xeon (E5-2600v2,E5-2600v3) ベンチマーク (2015/5/15 更新)

最新プロセッサベンチマーク TOPへ戻る

2014年9月に発表されたXeon Haswell-EP(E5-1600v3/2600v3)シリーズは先行するCPUに対し大きく性能が向上しています。AVX2コマンドをサポートできるようになりましたので、各コアに内蔵された加算、乗算器は、先行するSandyBridge、IvyBridgeの2倍の各8個の計算を同時に行なえるようになりました。 ベース動作周波数でフルに計算するとすれば、例えばE5-2680v3の場合、8FLOPS×2(加算・乗算)×2.5GHz=40GFLOPSというコア当りの理論性能を有しています。内蔵されるコア数も増加しましたので、デュアルCPU機では理論性能が1TFLOPSを超えるかあるいは近い性能となっています。 Haswell-EPではその他に、2チャンネル装備されているQPIの速度が8GT/secから9.6GT/secに向上したのと、メモリの転送速度が新しいDDR4メモリの採用により68.2GB/sec(CPUごとに)に向上し、演算性能の向上に比例してIOが強化されました。以下にXeon E5-2600v3シリーズの弊社でのベンチマーク結果を記載致します。

評価したCPU / メモリ

CPU ベース動作周波数 TurboBoost時の最大周波数 CPU
当りコア数
CPU
当りキャッシュメモリ
CPU当りメモリバス速度 QPI速度 使用したメモリ
Xeon E5-2680v2 ×2 2.8GHz 3.6GHz 10 25MB 59.7GB/sec. 8GT/sec. x2 DDR3 1866MHz RDIMM 16GB ×8
Xeon E5-2670v3 ×2 2.3GHz 3.1GHz 12 30MB 68.2GB/sec. 9.6GT
/sec. x2
DDR4 2133MHz RDIMM 16GB ×8
Xeon E5-2680v3 ×2 2.5GHz 3.3GHz 12 30MB 68.2GB/sec. 9.6GT
/sec. x2
DDR4 2133MHz RDIMM 16GB ×8
Xeon E5-2690v3 ×2 2.6GHz 3.5GHz 12 30MB 68.2GB/sec. 9.6GT
/sec. x2
DDR4 2133MHz RDIMM 16GB ×8
Xeon E5-2687Wv3 ×2 3.1GHz 3.5GHz 10 25MB 68.2GB/sec. 9.6GT
/sec. x2
DDR4 2133MHz RDIMM 16GB ×8
Xeon E5-2698v3 ×2 2.3GHz 3.6GHz 16 40MHz 68.2GB/sec. 9.6GT
/sec. x2
DDR4 2133MHz RDIMM 16GB ×8

※Turbo Boost=ON時に1または2コアが動作しているときに最大周波数となります。 以後動作するコア数が増えて行く に従って動作周波数は低くなります。 ベンチマークではTurboBoost=ONで行いました。

評価プログラム

A. 連立一次方程式

(1) Intel MKLライブラリ使用

キャッシュヒット率高い

(2) LAPACKソースプログラムをIntel Fortranにてコンパイル

キャッシュヒット率低く、メモリアクセスが多い

B. 一般的なアプリケーション

コンパイラ及びOS

  • コンパイラ  Intel Fortran XE 15.0
  • ライブラリ  Intel MKL 11.2
  • OS      CentOS 6.5

テスト方法

  • 1本または複数本のプログラムを同時に実行し、性能を調べました。
  • プログラムを複数本同時に実行した時には、CPU1とCPU2に同数のプログラムを実行させ、かつコア固定で
    行い、最速時の実効時間を計測しました。
  • 並列計算の場合はコアを固定せずに行った結果です。
キャッシュによくヒットしピーク性能を出すプログラムを1~32個同時に実行
(MKLをリンクして生成した連立一次方程式の実行コード)
CPU E5-2680v2 E5-2680v3 E5-2690v3 E5-2687Wv3 E5-2698v3
未知数 20,000 20,000
(並列)
20,000 20,000
(並列)
20,000 20,000
(並列)
20,000 20,000
(並列)
20,000 20,000
(並列)
実行するコア数 1 26,489 44,675 - 46,244 - 47,356 - 46,998 -
2 26,529 50,858 26,529 84,767 26,529 88,123 47,420 90,356 47,216 89,753
4 25,720 97,107 44,747 164,348 46,073 167,945 47,422 171.934 46.901 171.575
8 24,197 177,827 40,564 292,526 43,217 303,409 46,110 318,595 43,050 299,457
12 調査せず 調査せず 40,301 425,931 43,298 436,885 調査せず 調査せず 調査せず 調査せず
16 22,640 312,657 37,697 552,338 40,612 568,831 45,602 608,271 37,277 545,726
20 21,990 371,004
(409,484)
調査せず 調査せず 調査せず 調査せず 41,273 569,621
(711,234)
調査せず 調査せず
24 - - 31,988 574,035
(697,097)
34,353 615,865
(772,745)
- - 調査せず 調査せず
32 28,973 611,549
(832,121)

単位:MFLOPS  ※( )内は124,000の未知数です。

メモリアクセスの多発するプログラムを1~32個同時に実行
(Lapackをコンパイルして生成した連立一次方程式の実行コード)
CPU E5-2680v2 E5-2680v3 E5-2690v3 E5-2687Wv3 E5-2698v3
未知数 20,000 20,000 20,000 20,000 20,000
実行するコア数 1 4,615 4,730 4,865 4,929 4,725
2 4,605 4,742 4,860 4,942 4,818
4 4,474 4,717 4,864 4,936 4,736
8 3,041 3,479 3,626 3,262 4,472
12 調査せず 2,523 2,596 調査せず 調査せず
16 1,683 1,951 1,970 2,425 2,185
20 1,322 調査せず 調査せず 1,463 調査せず
24 - 1,337 1,350 - 2,185
32 - - - - 930

単位:MFLOPS

科学計算プログラムの一例 (MKLルーチンを多用)
CPU E5-2680v2 E5-2680v3 E5-2690v3 E5-2687Wv3 E5-2698v3
実行するコア数 1コア 181.3 171.1 164.9 172.4 178.1
2コア並列 95.6 90.4 90.5 87.2 90.4
4コア並列 52.4 50.0 52.0 47.7 53.2
8コア並列 31.0 33.3 31.8 27.0 31.2
12コア並列 調査せず 31.6 30.8 調査せず 調査せず
16コア並列 21.1 27.5 22.3 25.4 20.5
20コア並列 30.9 調査せず 調査せず 27.3 調査せず
24コア並列 - 46.6 42.5 - 調査せず
32コア並列 - - - - 29.5

単位:秒