DataProc+PySparkのTips
環境変数の利用 DBへの接続情報など環境変数から設定するようにしたいケースが発生しそうなので調査しました。 いずれもドライバプログラム内でしか利用できません。つまりworkerノード(リモート)で利用するためには一旦変数に格納してアプリケーションコード内で参照するような工夫が必要ですのでご注意ください。 方法1:initialization-actionsで自前スクリプトを実行する initialization-actionsで自前のスクリプトを実行して、その中で環境変数を設定するというとても原始的な方法です。この方法だと変数の内容をファイルに記載して、GCSにアップロードしなくてはならないので正直使えないと思っています。 まず、クラスター作成時にinitialization-actionsオプションで指定するスクリプト(initialize.sh)を実装する echo "exp Continue Reading