[SPARK-35155][SQL] Add rule id pruning to Analyzer rules #32425

sigmod · 2021-05-03T16:49:09Z

What changes were proposed in this pull request?

Added rule id based pruning to Analyzer rules in fixed point batches:

org.apache.spark.sql.catalyst.analysis.Analyzer$AddMetadataColumns
org.apache.spark.sql.catalyst.analysis.Analyzer$ExtractGenerator
org.apache.spark.sql.catalyst.analysis.Analyzer$ExtractWindowExpressions
org.apache.spark.sql.catalyst.analysis.Analyzer$GlobalAggregates
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveAggAliasInGroupBy
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveAggregateFunctions
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveAliases
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveBinaryArithmetic
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveDeserializer
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveEncodersInUDF
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveFunctions
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveGenerate
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveGroupingAnalytics
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveInsertInto
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveMissingReferences
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveNewInstance
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveOrdinalInOrderByAndGroupBy
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveOutputRelation
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolvePivot
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRandomSeed
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveReferences
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveSubqueryColumnAliases
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveTables
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveTempViews
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveUpCast
org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveUserSpecifiedColumns
org.apache.spark.sql.catalyst.analysis.Analyzer$WindowsSubstitution
org.apache.spark.sql.catalyst.analysis.DeduplicateRelations
org.apache.spark.sql.catalyst.analysis.EliminateSubqueryAliases
org.apache.spark.sql.catalyst.analysis.EliminateUnions
org.apache.spark.sql.catalyst.analysis.ResolveCreateNamedStruct
org.apache.spark.sql.catalyst.analysis.ResolveHints$ResolveCoalesceHints
org.apache.spark.sql.catalyst.analysis.ResolveHints$ResolveJoinStrategyHints
org.apache.spark.sql.catalyst.analysis.ResolveInlineTables
org.apache.spark.sql.catalyst.analysis.ResolveLambdaVariables
org.apache.spark.sql.catalyst.analysis.ResolveTimeZone
org.apache.spark.sql.catalyst.analysis.ResolveUnion
org.apache.spark.sql.catalyst.analysis.SubstituteUnresolvedOrdinals
org.apache.spark.sql.catalyst.analysis.TimeWindowing

Subsequent PRs will add tree bits based pruning to those rules. Split a big PR to reduce review load.

Why are the changes needed?

Reduce the number of tree traversals and hence improve the query compilation latency.

How was this patch tested?

Existing tests.

sigmod · 2021-05-04T21:48:51Z

@hvanhovell @gengliangwang @dbaliafroozeh @maryannxue, this PR is ready for review. Changes in this PR are kind of mechanic -- I only added rule id pruning to Analyzer rules. I plan to add tree bit pruning in a subsequent PR so as to limit PR size and reduce review load.

SparkQA · 2021-05-05T02:09:40Z

Kubernetes integration test starting
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/42671/

SparkQA · 2021-05-05T02:09:42Z

Kubernetes integration test status failure
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/42671/

gengliangwang · 2021-05-05T03:24:08Z

@sigmod Does this include all the analyzer rules?

sigmod · 2021-05-05T04:28:18Z

@sigmod Does this include all the analyzer rules?

It includes most rules in fixed point batches in those places (because rule id only helps rules that invoke multiple times, e.g., in a fixed point batch):

spark/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/Analyzer.scala

Lines 255 to 292 in 86d3bb5

    
           ResolveUserSpecifiedColumns :: 
        
           ResolveInsertInto :: 
        
           ResolveRelations :: 
        
           ResolveTables :: 
        
           ResolvePartitionSpec :: 
        
           AddMetadataColumns :: 
        
           DeduplicateRelations :: 
        
           ResolveReferences :: 
        
           ResolveCreateNamedStruct :: 
        
           ResolveDeserializer :: 
        
           ResolveNewInstance :: 
        
           ResolveUpCast :: 
        
           ResolveGroupingAnalytics :: 
        
           ResolvePivot :: 
        
           ResolveOrdinalInOrderByAndGroupBy :: 
        
           ResolveAggAliasInGroupBy :: 
        
           ResolveMissingReferences :: 
        
           ExtractGenerator :: 
        
           ResolveGenerate :: 
        
           ResolveFunctions :: 
        
           ResolveAliases :: 
        
           ResolveSubquery :: 
        
           ResolveSubqueryColumnAliases :: 
        
           ResolveWindowOrder :: 
        
           ResolveWindowFrame :: 
        
           ResolveNaturalAndUsingJoin :: 
        
           ResolveOutputRelation :: 
        
           ExtractWindowExpressions :: 
        
           GlobalAggregates :: 
        
           ResolveAggregateFunctions :: 
        
           TimeWindowing :: 
        
           ResolveInlineTables :: 
        
           ResolveHigherOrderFunctions(catalogManager) :: 
        
           ResolveLambdaVariables :: 
        
           ResolveTimeZone :: 
        
           ResolveRandomSeed :: 
        
           ResolveBinaryArithmetic :: 
        
           ResolveUnion ::

spark/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/Analyzer.scala

Lines 239 to 243 in 86d3bb5

    
           OptimizeUpdateFields, 
        
           CTESubstitution, 
        
           WindowsSubstitution, 
        
           EliminateUnions, 
        
           SubstituteUnresolvedOrdinals),

spark/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/Analyzer.scala

Lines 247 to 248 in 86d3bb5

    
           ResolveHints.ResolveJoinStrategyHints, 
        
           ResolveHints.ResolveCoalesceHints),

Two rules are currently not included:

TypeCoercionRule which currently does a hand-written recursion instead of calling resolve/transform;
CTESubstitution which has a slightly complex logic with multiple transform calls.

I plan to address them in subsequent PRs.

Three rules that rely on potentially changing, external states currently are not included neither (although they are probably fine for the current use cases):

ResolveTableValuedFunctions(v1SessionCatalog)
ResolveNamespace(catalogManager)
ResolveCatalogs(catalogManager)

SparkQA · 2021-05-05T05:40:30Z

Test build #138150 has finished for PR 32425 at commit 58923f4.

This patch passes all tests.
This patch merges cleanly.
This patch adds the following public classes (experimental):
trait ExtractValue extends Expression

gengliangwang · 2021-05-06T00:54:55Z

Thanks, merging to master

add rule id pruning for rules in Analyzer.scala

68e60ef

github-actions bot added the SQL label May 3, 2021

update

e42e29d

sigmod changed the title ~~[WIP][SPARK-35155][SQL] Add rule id pruning to Resolve rules~~ [WIP][SPARK-35155][SQL] Add rule id pruning to Analyzer rules May 3, 2021

sigmod added 2 commits May 3, 2021 11:24

minor update

ee3566d

minor update

aa97c48

sigmod changed the title ~~[WIP][SPARK-35155][SQL] Add rule id pruning to Analyzer rules~~ [SPARK-35155][SQL] Add rule id pruning to Analyzer rules May 3, 2021

sigmod changed the title ~~[SPARK-35155][SQL] Add rule id pruning to Analyzer rules~~ [WIP][SPARK-35155][SQL] Add rule id pruning to Analyzer rules May 3, 2021

sigmod added 3 commits May 3, 2021 18:03

fix a test case

3f5a53f

fix test case

78ed618

merge master

58923f4

sigmod changed the title ~~[WIP][SPARK-35155][SQL] Add rule id pruning to Analyzer rules~~ [SPARK-35155][SQL] Add rule id pruning to Analyzer rules May 4, 2021

gengliangwang closed this in 7970318 May 6, 2021

sigmod deleted the analyzer branch May 27, 2021 18:49

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[SPARK-35155][SQL] Add rule id pruning to Analyzer rules #32425

[SPARK-35155][SQL] Add rule id pruning to Analyzer rules #32425

sigmod commented May 3, 2021 •

edited

Loading

sigmod commented May 4, 2021

SparkQA commented May 5, 2021

SparkQA commented May 5, 2021

gengliangwang commented May 5, 2021

sigmod commented May 5, 2021 •

edited

Loading

SparkQA commented May 5, 2021

gengliangwang commented May 6, 2021

[SPARK-35155][SQL] Add rule id pruning to Analyzer rules #32425

[SPARK-35155][SQL] Add rule id pruning to Analyzer rules #32425

Conversation

sigmod commented May 3, 2021 • edited Loading

What changes were proposed in this pull request?

Why are the changes needed?

How was this patch tested?

sigmod commented May 4, 2021

SparkQA commented May 5, 2021

SparkQA commented May 5, 2021

gengliangwang commented May 5, 2021

sigmod commented May 5, 2021 • edited Loading

SparkQA commented May 5, 2021

gengliangwang commented May 6, 2021

sigmod commented May 3, 2021 •

edited

Loading

sigmod commented May 5, 2021 •

edited

Loading