Zap-In Technology
速度ベンチマークテスト

概要

ベンチマーク-1 Spark、BigQuery と Zap-In との速度比較
ベンチマーク-2 Zap-In 単独の速度測定 カテゴライズ処理
ベンチマーク-3 Zap-In 単独の速度測定 検索・ソート・集計・上書き更新

 

処理速度ベンチマーク-1

Hadoop/Spark, BigQuery, Zap-In Technology の速度比較

Zap-In Technology
大規模データ高速処理エンジンとして有名な Spark と
クラウド上の大規模データ分析システムとして有名な BigQuery との
処理速度の比較をしました。

データ読み込み・検索・ジョイン・集計・データ書き出しの各処理で、
Spark との比較では 最大で181倍、合計タイムで25倍の速度
BigQuery との比較では 最大で826倍、合計タイムで27倍の速度
を記録しました。この差は、データが大きくなればさらに劇的に拡大するものです。

結果
 処理 Zap-In Spark BigQuery
処理時間 [ms] 処理時間 [ms] 速度比 処理時間 [ms] 速度比
1. Aデータインポート 13 2,352 x181 1,000 x77
1. Bデータインポート 2 150 x75 1,000 x500
1. Cデータインポート 1,788 24,424 x14 71,100 x40
2. サーチ 19 495 x26 15,700 x826
3. ジョイン 658 234 x0.4 (*) 10,200 x15
4. 集計 125 208 x1.7 3,000 x24
5. Dデータエクスポート 1,586 78,973 x50 (*) 12,000 x8
合計タイム 4,192 106,839 x25 114,000 x27

(*) ジョイン処理は、Spark ではジョイン処理要求時には準備処理のみが行われ、実際の処理はデータエクスポート時に行われます。

条件
データ

・A 営業マンマスター.csv        1,000件
・B 製品マスター.csv           100件
・C セールスログ.csv    6,070,000
・D エクスポート.csv         73,000件

処理課題

1. データインポート
2. サーチ
3. ジョイン
4. 集計
5. データエクスポート

  処理マシン (Zap-In, Spark)

— CPU ————————————-
Intel(R) Xeon(R) CPU E5-2403 v2 @ 1.80GHz
cpu MHz : 1201.148
cache size : 10240 KB
fpu : yes
fpu_exception : yes

— Memory ————————————
MemTotal:      32726272 kB
MemFree:       28515008 kB
MemAvailable: 30948488 kB
Buffers:                   884 kB
Cached:            2568612 kB
SwapCached:               0 kB

— OS ——————————————–
CentOS Linux release 7.1.1503 (Core)

処理マシン(BigQuery)

Google クラウド

処理速度ベンチマーク-2

Zap-In Technology の単独の速度測定

Zap-In のカテゴライズ処理速度の測定をしました。

10億件のデータを10種類のカテゴリーに分類するのに
わずか 187 ms で完了しました。

結果
処理時間

187 ms  (5.35億更新/秒)

条件
データ

データ件数        1億件
・各データの項目数 8項目

処理課題

・10種類のカテゴリーに分類

処理マシン

— CPU  ————————————-
AMD Phenom2 CPU x4  925(4core) @ 2.80GHz
cpu MHz : 1201.148
L1 : 2MB
L2 : 6MB

— Memory ————————————
MemTotal:      8 MB (1333MHz)

— OS ——————————————–
Windows 7 Ultimate 64bit

処理速度ベンチマーク-3

Zap-In Technology の単独の速度測定

Zap-In の検索・ソート・集計・上書き更新の各処理速度の測定をしました。

例えば、1億件の文字列データをソートするのに、わずか 5,659 ms で完了しました。

結果
処理時間
 処理 (データ1億件) Zap-In
1. サーチ   10件ヒット 0 ms
1. サーチ  1万件ヒット 0 ms
1. サーチ 100万件ヒット 7 ms
2. ソート 5,659 ms
3. 集計 9,312 ms
4. 上書き更新 100万件 10,784 ms

 

条件
データ

・データ件数        1億件
・各データの項目数 8項目

・項目1: 整数, 1億種類の値, シーケンシャル
・項目2: 整数, 1万種類の値, ランダム
・項目3: 整数, 100種類の値, ランダム
・項目4: 整数, 100種類の値, ランダム
・項目5: 文字列, 1億種類の値, ランダム
・項目6: 文字列, 100種類の値, ランダム
・項目7: 倍精度浮動小数, 1億種類の値, ランダム
・項目8: 10進固定小数(38桁), 1億種類の値, ランダム

処理課題

処理1. サーチ: 文字列(ユニークでランダム)をサーチ
処理2. ソート: 項目5(ユニークでランダムな文字列)をソート
処理3. 集計:  1次元(100種類の値)、1測度(ユニークでランダムな浮動小数)の集計
処理4. 上書き更新: 100万ヶ所を上書き更新

処理マシン

— CPU  ————————————-
Intel Xeon x2 (2core) @ 3.16GHz
L1 : 64kB
L2 : 1MB/1core

— Memory ————————————
MemTotal:      32 MB (1333MHz)

— OS ——————————————–
Windows Server 2008 Standard

<Zap-In 技術資料へ>