Apache Tez

最近、システムのアーキテクチャに興味があり、アーキテクチャの学習がてらAWSの勉強している。
やりたいことに対して、アーキテクチャのベストプラクティスがあるので非常に参考になる。
そんで、AmazonEMRの中で、

ApacheTez

が出てきて、わからなかったので調べた。

Tezとは

分散処理フレームワーク
MapReduceと同じ分散処理のフレームワーク
MapReduceのデメリットを解消できるイケてるフレームワークのようだ。

MapReduceのデメリット

MapReduceのデメリットって何なんだろう?
自分は触ったことがないから勘所がわからん。

MapReduceでは毎回必ずHDFSからデータを読み込みHDFSにデータを書き込みます。 多段になるような複雑なことをしようとするとジョブの実行時間のうちHDFSの読み書きが占める時間が無視できないく多くなるという状況が発生します。
Apache Tezの解説 | Hadoop Advent Calendar 2016 #07 | Developers.IO

イケてるものということは何となくわかった。
具体的にはどんな動作をするんだろう?

動き

Apache Tezの解説 | Hadoop Advent Calendar 2016 #07 | Developers.IO


Ganesan Senthilvel: Apache Tez