tencent cloud

Data Lake Compute

製品概要
プロダクト概要
製品の強み
適用シーン
購入ガイド
課金概要
返金説明
支払い期限切れ説明
設定調整費用の説明
クイックスタート
新規ユーザー開通フルプロセス
DLC データインポートガイド
DLCデータ分析の1分間入門
DLC権限管理の1分間入門
パーティションテーブル1分間入門
データ最適化をオンにする
クロスソース分析 EMR Hive データ
標準エンジン構成ガイド
操作ガイド
コンソール操作紹介
開発ガイド
実行環境
SparkJar ジョブ開発ガイド
PySparkジョブ開発ガイド
「クエリパフォーマンス最適化ガイド」
UDF 関数開発ガイド
システム制約
クライアントアクセス
JDBCアクセス
TDLC コマンドラインツールにアクセス
サードパーティソフトウェア連携
Python にアクセス
実践チュートリアル
DLC を Power BI に接続
テーブル作成の実践
Apache Airflowを使用してDLCエンジンのタスクをスケジュールして送信する
StarRocks は DLC 内部ストレージを直接クエリします
Spark の計算コスト最適化プラクティス
DATA + AI
ロールSSOを使用してDLCにアクセスする
SQL構文
SuperSQL構文
標準 Spark 構文概要
標準 Presto 構文の概要
予約語
API Documentation
History
Introduction
API Category
Making API Requests
Data Table APIs
Task APIs
Metadata APIs
Service Configuration APIs
Permission Management APIs
Database APIs
Data Source Connection APIs
Data Optimization APIs
Data Engine APIs
Resource Group for the Standard Engine APIs
Data Types
Error Codes
一般クラスリファレンス
エラーコード
クォータと制限
サードパーティソフトウェアでDLCに接続する操作ガイド
よくあるご質問
権限に関するよくあるご質問
エンジン類のよくある質問
機能に関するよくあるご質問
Sparkジョブクラスに関するよくある質問
DLC ポリシー
プライバシーポリシー
データプライバシーとセキュリティ契約
お問い合わせ

Spark環境の説明

PDF
フォーカスモード
フォントサイズ
最終更新日: 2025-12-24 11:41:30

基本環境

現在のDLCのSpark基本実行環境は以下の通りです:
OS = Debian 11(bullseye)
Python = 3.9.2

基本イメージ

DLCでは以下のpysparkイメージを提供しており、必要に応じて選択できます:
spark:3.2.1-python
spark:3.2.1-python-ml
spark:3.2.1-python-ai

spark:3.2.1-python

このバージョンのイメージは基本的な実行環境を提供し、具体的な依存関係は以下の通りです:
Package Version
------------------ ---------
certifi 2022.6.15
charset-normalizer 2.1.0
greenlet 1.1.2
idna 3.3
numpy 1.23.0
pandas 1.4.3
pip 22.1.2
psycopg2-binary 2.9.3
pyarrow 8.0.0
PyMySQL 1.0.2
python-dateutil 2.8.2
pytz 2022.1
requests 2.28.1
setuptools 63.1.0
six 1.16.0
SQLAlchemy 1.4.39
urllib3 1.26.9
wheel 0.34.2

spark:3.2.1-python-ml

このバージョンのイメージは軽量な機械学習シナリオの実行環境を提供し、具体的な依存関係は以下の通りです:
Package Version
------------------ ---------
certifi 2022.6.15
charset-normalizer 2.1.0
greenlet 1.1.2
idna 3.3
joblib 1.1.0
networkx 2.8.4
numpy 1.23.0
packaging 21.3
pandas 1.4.3
patsy 0.5.2
pip 22.1.2
psycopg2-binary 2.9.3
pyarrow 8.0.0
PyMySQL 1.0.2
pyparsing 3.0.9
python-dateutil 2.8.2
pytz 2022.1
requests 2.28.1
scikit-learn 1.1.1
scipy 1.8.1
setuptools 63.1.0
six 1.16.0
SQLAlchemy 1.4.39
statsmodels 0.13.2
threadpoolctl 3.1.0
urllib3 1.26.9
wheel 0.34.2


spark:3.2.1-python-ai

このバージョンのイメージは、AIシナリオの実行環境を提供し、具体的な依存関係は以下の通りです:
Package                      Version
---------------------------- ---------
absl-py                      1.1.0
astunparse                   1.6.3
cachetools                   5.2.0
certifi                      2022.6.15
charset-normalizer           2.0.12
flatbuffers                  1.12
gast                         0.4.0
google-auth                  2.8.0
google-auth-oauthlib         0.4.6
google-pasta                 0.2.0
grpcio                       1.47.0
h5py                         3.7.0
idna                         3.3
importlib-metadata           4.11.4
joblib                       1.1.0
keras                        2.9.0
Keras-Preprocessing          1.1.2
libclang                     14.0.1
Markdown                     3.3.7
networkx                     2.8.4
numpy                        1.23.0
oauthlib                     3.2.0
opencv-python                4.6.0.66
opt-einsum                   3.3.0
packaging                    21.3
pandas                       1.4.3
Pillow                       9.1.1
pip                          22.1.2
protobuf                     3.19.4
pyarrow                      8.0.0
pyasn1                       0.4.8
pyasn1-modules               0.2.8
pyparsing                    3.0.9
python-dateutil              2.8.2
pytz                         2022.1
requests                     2.28.0
requests-oauthlib            1.3.1
rsa                          4.8
scikit-learn                 1.1.1
scipy                        1.8.1
setuptools                   62.6.0
six                          1.16.0
tensorboard                  2.9.1
tensorboard-data-server      0.6.1
tensorboard-plugin-wit       1.8.1
tensorflow                   2.9.1
tensorflow-estimator         2.9.0
tensorflow-io-gcs-filesystem 0.26.0
termcolor                    1.1.0
threadpoolctl                3.1.0
torch                        1.11.0
torchvision                  0.12.0
typing_extensions            4.2.0
urllib3                      1.26.9
Werkzeug                     2.1.2
wheel                        0.34.2
wrapt                        1.14.1
zipp                         3.8.0

仮想環境

デフォルトで提供されているイメージがアプリケーションの要件を満たさない場合、仮想環境方式で依存関係をパッケージ化できます。debian同源のオペレーティングシステムを使用し、python = 3.9.Xで依存関係をインストールおよびパッケージ化することをお勧めします。具体的な操作は以下の通りです:
#> docker run -it -v {YOUR-WORKING-DIR}:/data --rm python:3.9-slim /bin/bash
root@000000> cd /data
root@000000> python3 -m venv pyspark-venv
root@000000 (pysaprk-venv)> source pyspark-venv/bin/activate
root@000000 (pyspark-venv)> pip3 install -i https://mirrors.tencent.com/pypi/simple/  {YOUR-DEPENDENCIES}
root@000000> deactivate
root@000000> tar czvf pysarpk-venv.tar.gz pyspark-venv # 仮想環境をパッケージ化
root@000000> exit # dockerを終了

ヘルプとサポート

この記事はお役に立ちましたか?

フィードバック