apache · xinrong-meng · Apr 27, 2021 · Apr 27, 2021 · Apr 29, 2021 · Apr 29, 2021
diff --git a/python/docs/source/getting_started/install.rst b/python/docs/source/getting_started/install.rst
@@ -152,14 +152,17 @@ To install PySpark from source, refer to |building_spark|_.
 
 Dependencies
 ------------
-============= ========================= ================
+============= ========================= ============================
 Package       Minimum supported version Note
-============= ========================= ================
+============= ========================= ============================
 `pandas`      0.23.2                    Optional for SQL
 `NumPy`       1.7                       Required for ML 
 `pyarrow`     1.0.0                     Optional for SQL
 `Py4J`        0.10.9.2                  Required
-============= ========================= ================
+`pandas`      0.23.2                    Required for pandas-on-Spark
+`pyarrow`     1.0.0                     Required for pandas-on-Spark
+`Numpy`       1.14(<1.20.0)             Required for pandas-on-Spark
+============= ========================= ============================
 
 Note that PySpark requires Java 8 or later with ``JAVA_HOME`` properly set.  
 If using JDK 11, set ``-Dio.netty.tryReflectionSetAccessible=true`` for Arrow related features and refer

diff --git a/python/setup.py b/python/setup.py
@@ -220,6 +220,13 @@ def run(self):
                   'pyspark.bin',
                   'pyspark.sbin',
                   'pyspark.jars',
+                  'pyspark.pandas',
+                  'pyspark.pandas.indexes',
+                  'pyspark.pandas.missing',
+                  'pyspark.pandas.plot',
+                  'pyspark.pandas.spark',
+                  'pyspark.pandas.typedef',
+                  'pyspark.pandas.usage_logging',
                   'pyspark.python.pyspark',
                   'pyspark.python.lib',
                   'pyspark.data',
@@ -257,7 +264,12 @@ def run(self):
             'sql': [
                 'pandas>=%s' % _minimum_pandas_version,
                 'pyarrow>=%s' % _minimum_pyarrow_version,
-            ]
+            ],
+            'pandas_on_spark': [
+                'pandas>=%s' % _minimum_pandas_version,
+                'pyarrow>=%s' % _minimum_pyarrow_version,
+                'numpy>=1.14,<1.20.0',
+            ],
         },
         python_requires='>=3.6',
         classifiers=[