Apache SparkをPythonから使うための方法とノウハウを網羅!PySparkとはSparkを実行するためのPython APIです。インメモリ(ソフトウェアを実行する際、使用するプログラムやデータのすべてをメモリ上に読み込み、ハードディスクなどの外部記憶装置を使わないこと)で高速に分散処理ができるフレームワークで、MLlibという機械学習ライブラリが利用できることなどから注目されています。本書は、Apache SparkをPythonから使うための方法とノウハウを書いた書籍です。