データサイエンス100本ノックをpysparkで解く

データサイエンス100本ノックをpysparkで解きました。環境構築には公式と同様にDockerを使っています。 gitリポジトリはこちら

ローカルのファイルをDockerイメージにマウントするため、ユーザディレクトリ配下でgit cloneすることがおススメです。それ以外のディレクトリに展開する場合は、Dockerの共有設定を変更する必要があります。

git clone https://github.com/muka-1206/practice-pyspark

でディレクトリをクローンしてください。

cloneしたディレクトリに移動してください。

cd practice-pyspark

以下のコマンドでbuildが行えます。初回はimageをpullするため時間がかかります。

docker-compose up -d --build

コンテナを起動した状態で http://localhost:8890 にアクセスするとjupyter notebookが起動します。終了するときはdocker-compose stop、コンテナを再起動するときはdocker-compose startです。イメージごと削除するときはdocker-compose downでイメージを削除できます。