PySparkの実行でImportError: No module namedが出たとき
ImportError: No module named
エラー
EMRの実環境でPySparkでクエリやUDFを実行させていたら以下のようなエラーが発生した。
ImportError: No module named 'foo'
どうやら各ノードにPythonのモジュールが分散されていない(?)ようだ。
対処
StackOverflowに似たようなケースがあった
stackoverflow.com
どうやら spark-submit コマンドの後に --py-files
ドキュメントには一応書いてあるようだ
For Python, the equivalent --py-files option can be used to distribute .egg, .zip and .py libraries to executors.