HammerDBをCLIで使うなど（１０）：テストデータをテキストファイルに出力する

DBによっては、データファイルの一括ロードが速いよね

OracleのSQL*Loaderとか、MYSQLのLOAD DATAコマンドとか、PostgreSQLのCOPYコマンドとか。
HammerDBのドキュメントの中でも、そういったツールを使うことを推奨しています。

そういったツールに読み込ませるデータを吐き出すためのコマンドが、今回のテーマです。

流れ

TPC-C/TPC-Hのbuildschemaまでの流れと似たようなものです。

スケールファクタの指定
仮想ユーザー（出力並列度）の指定
出力先ディレクトリの指定
設定確認
出力実行

設定項目は少なくて、「dgset」コマンドで見られる内容がすべてです。
デフォルトではOracleのTPC-C用の設定になっています。

hammerdb>dgset
dgset - Usage: dgset [vu|scale_fact|warehouse|directory]

scale_factはTPC-H用、warehouseはTPC-C用のデータサイズを決めるパラメータです。

以下、Oracle用TPC-H用のデータを作る手順を例に進めていきますが、DB選択での指定以外、MySQLもPostgreSQLも同じです。
ていうか、テキストファイルのデータにファイルにOracle用もMySQL用もPostgreSQL用もないでしょ。。。
え？Redis？（HammerDBの仕様上、TPC-Cのみサポートだけど）Redis用として指定しても何も変わりませんでしたよ。CSV

対象DBMSとベンチマークの選択

ここは、通常のベンチマーク実施のときと同じです。

hammerdb>dbset bm TPC-H
Benchmark set to TPC-H for Oracle

スケールファクタの指定

スケールファクタを10にしてみます。

hammerdb>dgset scale_fact 10

エラーが出なければOKです。

TPC-Cのときは、「dgset warehouse 値」にしてください。

仮想ユーザー（出力並列度）の指定

ここは、２並列にしてみます。

並列度を上げると、処理が並列に鳴るだけでなく、それぞれのテーブルに対応したファイルがvu数に分割されます。
取り込み処理の実行回数にも影響しますので、１テーブル１ファイルで作りたい場合、vuは１を使用してください。
「ディレクトリ配下まるごと」、とか「パターンマッチングで取り込み対象を指定できる」とか、さらには並列取り込みが可能なファイルローダを使う想定では、並列度を上げると便利でしょう。

hammerdb>dgset vu 2
Set virtual users to 2 for data generation

このコマンドは、ちゃんと応答がある。。。

なお、TPC-Cのデータを生成する際に、vu数はwarehouse で指定した値より小さくする必要があります。
（dgset vu実行時に、warehouse より大きい値を指定するとエラーになります。）

出力先ディレクトリの指定

デフォルトは/tmpです。
割と大きなサイズのファイルを作ることになるので、専用にマウントした大きなストレージに履きたい場合など、変更しておきましょう。

なお、ディレクトリを勝手に作ってくれるような優しさはないので、すでに存在していてアクセス可能なものを指定してください。

hammerdb>dgset directory "/mnt/eph/tpch_sf10"

このコマンドは、応答がない。。。

設定確認

変更してきた内容を確認します。

hammerdb>print datagen
Data Generation set to build a TPC-H schema for Oracle with 10 scale factor with 2 virtual users in /mnt/eph/tpch_sf10

出力実行

「datagenrun」でスタートさせます。
出力内容、長いので、省略します。

hammerdb>datagenrun
Ready to generate the data for a 10 Scale Factor Oracle TPC-H schema
in directory /mnt/eph/tpch_sf10 ?
Enter yes or no: replied yes
Vuser 1 created - WAIT IDLE
Vuser 2 created - WAIT IDLE
Vuser 3 created - WAIT IDLE
RUNNING - TPC-H generation
Vuser 1:RUNNING
...
Vuser 1:Workers: 0 Active 2 Done
Vuser 1:Scale Factor 10 SCHEMA GENERATED in 48 MINUTES
Vuser 1:FINISHED SUCCESS
ALL VIRTUAL USERS COMPLETE
                          TPC-H Driver Script

なお、約50分かかりました。

設定を変えたりして連続実行する場合、一旦vudestroyしてください。

出力結果確認

指定した場所に、ファイルが生成されていることを確認します。
vu=2 にしたので、各テーブルに対応するファイルは２つずつに分割して生成されています
とはいえ、小さいテーブル「nation（25行）」「region（5行）」は１ファイルですね。

$ cd /mnt/eph/
$ ls -lh
total 11G
-rw-rw-r-- 1 ec2-user ec2-user 115M Sep  5 07:36 customer_1.tbl
-rw-rw-r-- 1 ec2-user ec2-user 116M Sep  5 07:36 customer_2.tbl
-rw-rw-r-- 1 ec2-user ec2-user 3.8G Sep  5 08:24 lineitem_1.tbl
-rw-rw-r-- 1 ec2-user ec2-user 3.8G Sep  5 08:24 lineitem_2.tbl
-rw-rw-r-- 1 ec2-user ec2-user 2.1K Sep  5 07:35 nation_1.tbl
-rw-rw-r-- 1 ec2-user ec2-user 844M Sep  5 08:24 orders_1.tbl
-rw-rw-r-- 1 ec2-user ec2-user 846M Sep  5 08:24 orders_2.tbl
-rw-rw-r-- 1 ec2-user ec2-user 116M Sep  5 07:44 part_1.tbl
-rw-rw-r-- 1 ec2-user ec2-user 118M Sep  5 07:44 part_2.tbl
-rw-rw-r-- 1 ec2-user ec2-user 575M Sep  5 07:44 partsupp_1.tbl
-rw-rw-r-- 1 ec2-user ec2-user 579M Sep  5 07:44 partsupp_2.tbl
-rw-rw-r-- 1 ec2-user ec2-user  464 Sep  5 07:35 region_1.tbl
-rw-rw-r-- 1 ec2-user ec2-user 6.7M Sep  5 07:35 supplier_1.tbl
-rw-rw-r-- 1 ec2-user ec2-user 6.7M Sep  5 07:35 supplier_2.tbl

ファイルの中身は、「"|"区切りテキスト」です。
PSV:Pipe Separated Valuesファイルって呼ぶのか？それとも、VSV：Virtical bar Separated Valuesファイルって呼ぶのか？

中身はこんなかんじです。

$ cat region_1.tbl
0|AFRICA|quickly even instructions breach; regular packages wake. slyly ironic requests cajole among th
1|AMERICA|quickly regular requests wake quickly. even sil
2|ASIA|regular requests are furiously.
3|EUROPE|regular regular excuses haggle against the blithely ironic instructions. sly
4|MIDDLE EAST|carefully final accounts nag fluffily against the express packages. quickly unusual accounts try to nag unusual s

文字列に意味はないと思うｗ

データロード

ここでは細かく書きませんが、ご丁寧にHammerDBのドキュメントに各DBへのローディングについての手順が書いてありますので、そちらへのリンクで。
4. Run the bulk data load

え？Redis？CSVとかからRedisにインポートする標準機能ってないよね。。。
ってことで、HammerDB公式のところでも華麗にスルーされてます。

まとめ

datagenでTPC-C/TPC-Hで任意のスケールファクタのデータをテキストファイルとして生成することが可能。
ファイル生成処理は並列処理が可能だが、並列化した分、できあがるファイルも増える。
各DBへのファイルローディングの方法はHammerDBの公式サイトに具体的なコマンドが書いてある。

パワフルなマシンで並列度上げてゴリっと回してもよし、並列処理せずに、夜中にほそぼそと生成させてもよし。

WEB+DB PRESS Vol.112

作者:樋口剛,篠田典良,谷口慶一郎,大沼由弥,豊島正規,三村益隆,笹田耕一,牧大輔,大原壯太,門松宏明,鈴木恭介,新倉涼太,末永恭正,久保田祐史,池田拓司,竹馬光太郎,はまちや2,竹原,粕谷大輔,泉征冶
出版社/メーカー:技術評論社
発売日: 2019/08/24
メディア:単行本（ソフトカバー）
この商品を含むブログを見る

HammerDBをCLIで使うなど（１０）：テストデータをテキストファイルに出力する

DBによっては、データファイルの一括ロードが速いよね

流れ

対象DBMSとベンチマークの選択

スケールファクタの指定

仮想ユーザー（出力並列度）の指定

出力先ディレクトリの指定

設定確認

出力実行

出力結果確認

データロード

まとめ

Trending Articles

自宅警備員2　-灰原家の血族-　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

YAMAHA CA-2000を聴く。

手話で１５０万円脅し取る　聴覚障害者の組員ら逮捕

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？

漢詩「白山を望む（望白山）」と作者の江川淡斎に関する資料が見たい。(石川県立図書館)

カラテドリームフェスティバル2023全国大会トーナメント発表

串本町の空き家で窃盗容疑の男逮捕　盗品運搬容疑の男も

[転載]駐禁除外標章の偽造横行、暴力団資金源　　　公文書偽造

第216回東北地方会プログラム－第3会場

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

高島屋

RealLifeCam (RLC) - Madison, Florence, Dianoria, Veronica, Karina - Backyard

架空の手形５００万円詐取　容疑の３人逮捕

2017年2月3日号　多摩信用金庫（1月4日付）

[1080p]回復術士のやり直し 11 完全《回復》ver.

パスワード変更時のエラーメッセージについて

【ディズニーランドパリ】日本にないオススメアトラクション13選【ウォルトディズニースタジオ】

レアル・マドリードアンセム「Hala Madrid y Nada Más」カナ歌詞と和訳とPV（デシマイムノ）

【ポケカ雑談】オリジナルカードを作ろう