[BUG] test_case_when fails with DATAGEN_SEED=1698940723 #9685

abellina · 2023-11-13T22:13:32Z

Relates to #9684

Just like the issue linked, this test also fails with duplicate key, and setting mapKeyDedupPolicy=LAST_WIN works.

Local repro:

SPARK_RAPIDS_TEST_DATAGEN_SEED=1698940723 ./run_pyspark_from_build.sh -k test_case_when\ and\ Map\ and\ double\ and\ not_null

[2023-11-02T17:07:56.115Z] ^[[31mFAILED^[[0m ../../src/main/python/conditionals_test.py::^[[1mtest_case_when[Map(Double(not_null),Double)][DATAGEN_SEED=1698940723, INJECT_OOM]^[[0m - py4j.protocol.Py4JJavaError: An error occurred while calling o34590.collectToPython.
[2023-11-02T17:07:56.115Z] : java.lang.RuntimeException: Duplicate map key NaN was found, please check the input data. If you want to remove the duplicated keys, you can set spark.sql.mapKeyDedupPolicy to LAST_WIN so that the key inserted at last takes precedence.
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.util.ArrayBasedMapBuilder.put(ArrayBasedMapBuilder.scala:72)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.expressions.CreateMap.eval(complexTypeCreator.scala:229)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.optimizer.ConstantFolding$$anonfun$apply$1$$anonfun$applyOrElse$1.applyOrElse(expressions.scala:66)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.optimizer.ConstantFolding$$anonfun$apply$1$$anonfun$applyOrElse$1.applyOrElse(expressions.scala:54)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.trees.TreeNode.$anonfun$transformDown$1(TreeNode.scala:317)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:73)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:317)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.trees.TreeNode.$anonfun$transformDown$3(TreeNode.scala:322)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.trees.TreeNode.$anonfun$mapChildren$1(TreeNode.scala:415)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.trees.TreeNode.mapProductIterator(TreeNode.scala:243)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.trees.TreeNode.mapChildren(TreeNode.scala:405)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.trees.TreeNode.mapChildren(TreeNode.scala:358)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:322)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.trees.TreeNode.$anonfun$transformDown$3(TreeNode.scala:322)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.trees.TreeNode.$anonfun$mapChildren$1(TreeNode.scala:407)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.trees.TreeNode.mapProductIterator(TreeNode.scala:243)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.trees.TreeNode.mapChildren(TreeNode.scala:405)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.trees.TreeNode.mapChildren(TreeNode.scala:358)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:322)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.plans.QueryPlan.$anonfun$transformExpressionsDown$1(QueryPlan.scala:94)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.plans.QueryPlan.$anonfun$mapExpressions$1(QueryPlan.scala:116)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:73)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.plans.QueryPlan.transformExpression$1(QueryPlan.scala:116)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.plans.QueryPlan.recursiveTransform$1(QueryPlan.scala:127)
[2023-11-02T17:07:56.115Z]  at org.apache.spark.sql.catalyst.plans.QueryPlan.$anonfun$mapExpressions$3(QueryPlan.scala:132)
[2023-11-02T17:07:56.115Z]  at scala.collection.TraversableLike.$anonfun$map$1(TraversableLike.scala:238)
[2023-11-02T17:07:56.115Z]  at scala.collection.mutable.ResizableArray.foreach(ResizableArray.scala:62)
[2023-11-02T17:07:56.115Z]  at scala.collection.mutable.ResizableArray.foreach$(ResizableArray.scala:55)

The text was updated successfully, but these errors were encountered:

abellina added bug Something isn't working ? - Needs Triage Need team to review and classify labels Nov 13, 2023

This was referenced Nov 13, 2023

Add a random seed specific to datagen cases #9441

Merged

Follow up from random datagen seed PR #9703

Open

mattahrens removed the ? - Needs Triage Need team to review and classify label Nov 14, 2023

thirtiseven mentioned this issue Nov 24, 2023

Avoid generating duplicate nan keys with MapGen(FloatGen) #9852

Merged

thirtiseven self-assigned this Nov 29, 2023

thirtiseven closed this as completed in #9852 Dec 1, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[BUG] test_case_when fails with DATAGEN_SEED=1698940723 #9685

[BUG] test_case_when fails with DATAGEN_SEED=1698940723 #9685

abellina commented Nov 13, 2023 •

edited

Loading

[BUG] test_case_when fails with DATAGEN_SEED=1698940723 #9685

[BUG] test_case_when fails with DATAGEN_SEED=1698940723 #9685

Comments

abellina commented Nov 13, 2023 • edited Loading

abellina commented Nov 13, 2023 •

edited

Loading