データサイエンス100本ノックをpysparkで解く
データサイエンス100本ノック をpysparkで解きました。環境構築には公式と同様にDockerを使っています。 gitリポジトリはこちら
ローカルのファイルをDockerイメージにマウントするため、ユーザディレクトリ配下でgit clone
することがおススメです。
それ以外のディレクトリに展開する場合は、Dockerの共有設定を変更する必要があります。
git clone https://github.com/muka-1206/practice-pyspark
でディレクトリをクローンしてください。
cloneしたディレクトリに移動してください。
cd practice-pyspark
以下のコマンドでbuildが行えます。初回はimageをpullするため時間がかかります。
docker-compose up -d --build
コンテナを起動した状態で http://localhost:8890 にアクセスするとjupyter notebookが起動します。
終了するときはdocker-compose stop
、コンテナを再起動するときはdocker-compose start
です。
イメージごと削除するときはdocker-compose down
でイメージを削除できます。