Intel Xeon (E5-2600v2,E5-2600v3) ベンチマーク (2015/5/15 更新)
2014年9月に発表されたXeon Haswell-EP(E5-1600v3/2600v3)シリーズは先行するCPUに対し大きく性能が向上しています。AVX2コマンドをサポートできるようになりましたので、各コアに内蔵された加算、乗算器は、先行するSandyBridge、IvyBridgeの2倍の各8個の計算を同時に行なえるようになりました。 ベース動作周波数でフルに計算するとすれば、例えばE5-2680v3の場合、8FLOPS×2(加算・乗算)×2.5GHz=40GFLOPSというコア当りの理論性能を有しています。内蔵されるコア数も増加しましたので、デュアルCPU機では理論性能が1TFLOPSを超えるかあるいは近い性能となっています。 Haswell-EPではその他に、2チャンネル装備されているQPIの速度が8GT/secから9.6GT/secに向上したのと、メモリの転送速度が新しいDDR4メモリの採用により68.2GB/sec(CPUごとに)に向上し、演算性能の向上に比例してIOが強化されました。以下にXeon E5-2600v3シリーズの弊社でのベンチマーク結果を記載致します。
評価したCPU / メモリ
CPU | ベース動作周波数 | TurboBoost時の最大周波数 | CPU 当りコア数 |
CPU 当りキャッシュメモリ |
CPU当りメモリバス速度 | QPI速度 | 使用したメモリ |
---|---|---|---|---|---|---|---|
Xeon E5-2680v2 ×2 | 2.8GHz | 3.6GHz | 10 | 25MB | 59.7GB/sec. | 8GT/sec. x2 | DDR3 1866MHz RDIMM 16GB ×8 |
Xeon E5-2670v3 ×2 | 2.3GHz | 3.1GHz | 12 | 30MB | 68.2GB/sec. | 9.6GT /sec. x2 |
DDR4 2133MHz RDIMM 16GB ×8 |
Xeon E5-2680v3 ×2 | 2.5GHz | 3.3GHz | 12 | 30MB | 68.2GB/sec. | 9.6GT /sec. x2 |
DDR4 2133MHz RDIMM 16GB ×8 |
Xeon E5-2690v3 ×2 | 2.6GHz | 3.5GHz | 12 | 30MB | 68.2GB/sec. | 9.6GT /sec. x2 |
DDR4 2133MHz RDIMM 16GB ×8 |
Xeon E5-2687Wv3 ×2 | 3.1GHz | 3.5GHz | 10 | 25MB | 68.2GB/sec. | 9.6GT /sec. x2 |
DDR4 2133MHz RDIMM 16GB ×8 |
Xeon E5-2698v3 ×2 | 2.3GHz | 3.6GHz | 16 | 40MHz | 68.2GB/sec. | 9.6GT /sec. x2 |
DDR4 2133MHz RDIMM 16GB ×8 |
※Turbo Boost=ON時に1または2コアが動作しているときに最大周波数となります。 以後動作するコア数が増えて行く に従って動作周波数は低くなります。 ベンチマークではTurboBoost=ONで行いました。
評価プログラム
- A. 連立一次方程式
-
(1) Intel MKLライブラリ使用
キャッシュヒット率高い
-
(2) LAPACKソースプログラムをIntel Fortranにてコンパイル
キャッシュヒット率低く、メモリアクセスが多い
- B. 一般的なアプリケーション
コンパイラ及びOS
- コンパイラ Intel Fortran XE 15.0
- ライブラリ Intel MKL 11.2
- OS CentOS 6.5
テスト方法
- 1本または複数本のプログラムを同時に実行し、性能を調べました。
- プログラムを複数本同時に実行した時には、CPU1とCPU2に同数のプログラムを実行させ、かつコア固定で
行い、最速時の実効時間を計測しました。 - 並列計算の場合はコアを固定せずに行った結果です。
- ◆
- キャッシュによくヒットしピーク性能を出すプログラムを1~32個同時に実行
(MKLをリンクして生成した連立一次方程式の実行コード)
CPU | E5-2680v2 | E5-2680v3 | E5-2690v3 | E5-2687Wv3 | E5-2698v3 | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|
未知数 | 20,000 | 20,000 (並列) |
20,000 | 20,000 (並列) |
20,000 | 20,000 (並列) |
20,000 | 20,000 (並列) |
20,000 | 20,000 (並列) |
|
実行するコア数 | 1 | 26,489 | — | 44,675 | - | 46,244 | - | 47,356 | - | 46,998 | - |
2 | 26,529 | 50,858 | 26,529 | 84,767 | 26,529 | 88,123 | 47,420 | 90,356 | 47,216 | 89,753 | |
4 | 25,720 | 97,107 | 44,747 | 164,348 | 46,073 | 167,945 | 47,422 | 171.934 | 46.901 | 171.575 | |
8 | 24,197 | 177,827 | 40,564 | 292,526 | 43,217 | 303,409 | 46,110 | 318,595 | 43,050 | 299,457 | |
12 | 調査せず | 調査せず | 40,301 | 425,931 | 43,298 | 436,885 | 調査せず | 調査せず | 調査せず | 調査せず | |
16 | 22,640 | 312,657 | 37,697 | 552,338 | 40,612 | 568,831 | 45,602 | 608,271 | 37,277 | 545,726 | |
20 | 21,990 | 371,004 (409,484) |
調査せず | 調査せず | 調査せず | 調査せず | 41,273 | 569,621 (711,234) |
調査せず | 調査せず | |
24 | - | - | 31,988 | 574,035 (697,097) |
34,353 | 615,865 (772,745) |
- | - | 調査せず | 調査せず | |
32 | — | — | — | — | — | — | — | — | 28,973 | 611,549 (832,121) |
単位:MFLOPS ※( )内は124,000の未知数です。
- ◆
- メモリアクセスの多発するプログラムを1~32個同時に実行
(Lapackをコンパイルして生成した連立一次方程式の実行コード)
CPU | E5-2680v2 | E5-2680v3 | E5-2690v3 | E5-2687Wv3 | E5-2698v3 | |
---|---|---|---|---|---|---|
未知数 | 20,000 | 20,000 | 20,000 | 20,000 | 20,000 | |
実行するコア数 | 1 | 4,615 | 4,730 | 4,865 | 4,929 | 4,725 |
2 | 4,605 | 4,742 | 4,860 | 4,942 | 4,818 | |
4 | 4,474 | 4,717 | 4,864 | 4,936 | 4,736 | |
8 | 3,041 | 3,479 | 3,626 | 3,262 | 4,472 | |
12 | 調査せず | 2,523 | 2,596 | 調査せず | 調査せず | |
16 | 1,683 | 1,951 | 1,970 | 2,425 | 2,185 | |
20 | 1,322 | 調査せず | 調査せず | 1,463 | 調査せず | |
24 | - | 1,337 | 1,350 | - | 2,185 | |
32 | - | - | - | - | 930 |
単位:MFLOPS
- ◆
- 科学計算プログラムの一例 (MKLルーチンを多用)
CPU | E5-2680v2 | E5-2680v3 | E5-2690v3 | E5-2687Wv3 | E5-2698v3 | |
---|---|---|---|---|---|---|
実行するコア数 | 1コア | 181.3 | 171.1 | 164.9 | 172.4 | 178.1 |
2コア並列 | 95.6 | 90.4 | 90.5 | 87.2 | 90.4 | |
4コア並列 | 52.4 | 50.0 | 52.0 | 47.7 | 53.2 | |
8コア並列 | 31.0 | 33.3 | 31.8 | 27.0 | 31.2 | |
12コア並列 | 調査せず | 31.6 | 30.8 | 調査せず | 調査せず | |
16コア並列 | 21.1 | 27.5 | 22.3 | 25.4 | 20.5 | |
20コア並列 | 30.9 | 調査せず | 調査せず | 27.3 | 調査せず | |
24コア並列 | - | 46.6 | 42.5 | - | 調査せず | |
32コア並列 | - | - | - | - | 29.5 |
単位:秒