データサイエンス100本ノックをpysparkで解く

データサイエンス100本ノック をpysparkで解きました。環境構築には公式と同様にDockerを使っています。 gitリポジトリこちら

ローカルのファイルをDockerイメージにマウントするため、ユーザディレクトリ配下でgit cloneすることがおススメです。 それ以外のディレクトリに展開する場合は、Dockerの共有設定を変更する必要があります。

git clone https://github.com/muka-1206/practice-pyspark

ディレクトリをクローンしてください。

cloneしたディレクトリに移動してください。

cd practice-pyspark

以下のコマンドでbuildが行えます。初回はimageをpullするため時間がかかります。

docker-compose up -d --build

コンテナを起動した状態で http://localhost:8890 にアクセスするとjupyter notebookが起動します。 終了するときはdocker-compose stop、コンテナを再起動するときはdocker-compose startです。 イメージごと削除するときはdocker-compose downでイメージを削除できます。