Spark 4.0: Row Lineage support #13310

amogh-jahagirdar · 2025-06-14T00:14:09Z

This change implements spark 4.0 with Iceberg v3's row lineage feature; this approach uses the new conditional nullification mechanism introduced in 4.0 instead of custom rules that we implemented for 3.5

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkWrite.java

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkWriteBuilder.java

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkPositionDeltaWrite.java

...sions/src/test/java/org/apache/iceberg/spark/extensions/SparkRowLevelOperationsTestBase.java

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkWriteBuilder.java

...ons/src/test/java/org/apache/iceberg/spark/extensions/TestRowLevelOperationsWithLineage.java

stevenzwu

some early comments

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkWrite.java

.../v4.0/spark/src/main/java/org/apache/iceberg/spark/source/ExtractRowLineageFromMetadata.java

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkWrite.java

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkWriteBuilder.java

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkMetadataColumn.java

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkWrite.java

...sions/src/test/java/org/apache/iceberg/spark/extensions/SparkRowLevelOperationsTestBase.java

nastra · 2025-07-08T10:29:58Z

...ons/src/test/java/org/apache/iceberg/spark/extensions/TestRowLevelOperationsWithLineage.java

+  public void beforeEach() {
+    assumeThat(formatVersion).isGreaterThanOrEqualTo(3);
+    // ToDo: Remove these as row lineage inheritance gets implemented in the other readers
+    assumeThat(fileFormat).isEqualTo(FileFormat.PARQUET);


maybe worth overriding parameters() in TestRowLevelOperationsWithLineage and defining a smaller test matrix, wdyt?

Yup agreed! I need to rebase and incorporate hte latest test changes I made which define a smaller test matrix (and will also remove the changes I made to SparkRowLevelOperationsTestBase)

...ons/src/test/java/org/apache/iceberg/spark/extensions/TestRowLevelOperationsWithLineage.java

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkMetadataColumn.java

nastra · 2025-07-08T10:45:20Z

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkPositionDeltaOperation.java

  public NamedReference[] requiredMetadataAttributes() {
    NamedReference specId = Expressions.column(MetadataColumns.SPEC_ID.name());
    NamedReference partition = Expressions.column(MetadataColumns.PARTITION_COLUMN_NAME);
+    if (TableUtil.supportsRowLineage(table)) {


nit: I'm fine either way but I think it would be could to align how this is done here (stores named references in an array) vs in SparkCopyOnWriteOperation (which stores named references in a list)

nastra · 2025-07-08T10:46:44Z

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkPositionDeltaWrite.java

              .writeProperties(writeProperties)
              .build();

+      Function<InternalRow, InternalRow> extractRowLineage =


nit: maybe rowLineageExtractor or something along those lines? I only mention this because extractRowLineage sounds like a boolean flag

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkWrite.java

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkWriteBuilder.java

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkPositionDeltaWrite.java

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkTable.java

spark/v4.0/spark/src/test/java/org/apache/iceberg/spark/data/TestSparkAvroReader.java

…stently for surfacing metadata columns, and include test refactorings that were done in 3.4/3.5

…isting metadata row

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkPositionDeltaWrite.java

…mMetadata to RowLineageExtractor

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/ExtractRowLineage.java

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkPositionDeltaWrite.java

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkWriteBuilder.java

…ow lineage decoration

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/ExtractRowLineage.java

github-actions bot added the spark label Jun 14, 2025

amogh-jahagirdar commented Jun 14, 2025

View reviewed changes

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkWrite.java Outdated Show resolved Hide resolved

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkWriteBuilder.java Show resolved Hide resolved

amogh-jahagirdar force-pushed the spark-4.0-row-lineage branch 2 times, most recently from 7dcb5a2 to be78ef5 Compare June 15, 2025 23:05

amogh-jahagirdar commented Jun 17, 2025

View reviewed changes

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkPositionDeltaWrite.java Outdated Show resolved Hide resolved

amogh-jahagirdar force-pushed the spark-4.0-row-lineage branch 2 times, most recently from 54145af to 3a6d7fa Compare June 17, 2025 19:21

amogh-jahagirdar marked this pull request as ready for review June 30, 2025 19:54

amogh-jahagirdar requested review from huaxingao, aokolnychyi, nastra, rdblue, RussellSpitzer and stevenzwu June 30, 2025 19:54

RussellSpitzer reviewed Jun 30, 2025

View reviewed changes

...sions/src/test/java/org/apache/iceberg/spark/extensions/SparkRowLevelOperationsTestBase.java Outdated Show resolved Hide resolved

amogh-jahagirdar commented Jul 7, 2025

View reviewed changes

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkWriteBuilder.java Outdated Show resolved Hide resolved

amogh-jahagirdar commented Jul 7, 2025

View reviewed changes

...ons/src/test/java/org/apache/iceberg/spark/extensions/TestRowLevelOperationsWithLineage.java Outdated Show resolved Hide resolved

amogh-jahagirdar added this to the Iceberg 1.10.0 milestone Jul 7, 2025

stevenzwu reviewed Jul 8, 2025

View reviewed changes

nastra reviewed Jul 8, 2025

View reviewed changes

amogh-jahagirdar force-pushed the spark-4.0-row-lineage branch 2 times, most recently from b5c5dd6 to 0d51fb5 Compare July 8, 2025 20:18

stevenzwu reviewed Jul 8, 2025

View reviewed changes

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkPositionDeltaWrite.java Show resolved Hide resolved

stevenzwu reviewed Jul 8, 2025

View reviewed changes

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkTable.java Show resolved Hide resolved

amogh-jahagirdar commented Jul 8, 2025

View reviewed changes

spark/v4.0/spark/src/test/java/org/apache/iceberg/spark/data/TestSparkAvroReader.java Show resolved Hide resolved

amogh-jahagirdar mentioned this pull request Jul 9, 2025

Spark 4.0: Port Avro lineage reader test changes from #13070 #13496

Merged

amogh-jahagirdar force-pushed the spark-4.0-row-lineage branch from dad59a1 to 31cfce2 Compare July 10, 2025 03:55

amogh-jahagirdar added 3 commits July 9, 2025 21:57

spark 4.0: row lineage

122fc32

Address comments, rename rowlineage extract variable, use lists consi…

5d20c37

…stently for surfacing metadata columns, and include test refactorings that were done in 3.4/3.5

Use projecting internal row instead of copying into a new row from ex…

2eb84ca

…isting metadata row

amogh-jahagirdar force-pushed the spark-4.0-row-lineage branch from 31cfce2 to 2eb84ca Compare July 10, 2025 03:57

stevenzwu reviewed Jul 10, 2025

View reviewed changes

spark/v4.0/spark/src/main/java/org/apache/iceberg/spark/source/SparkPositionDeltaWrite.java Outdated Show resolved Hide resolved

Pass write schema to RowLineageExtractor, rename ProjectRowLineageFro…

4c1bfcd

…mMetadata to RowLineageExtractor

amogh-jahagirdar requested review from stevenzwu, nastra and RussellSpitzer July 14, 2025 16:05

amogh-jahagirdar mentioned this pull request Jul 14, 2025

Spark 4.0: Preserve row lineage information on compaction #13555

Merged