Spark 3.5, Arrow: Support for Row lineage when using the Parquet Vectorized reader #12928

amogh-jahagirdar · 2025-04-29T05:34:36Z

This change adds support for row lineage when performing operations on tables with the default Spark vectorized reader.

amogh-jahagirdar · 2025-04-29T13:55:07Z

I've separated out a large chunk of the test refactoring to use Iceberg Records in writeAndValidate instead of Avro Records into #12925 . I think we should get that in first, then I can rebase and this becomes a more focused change.

arrow/src/main/java/org/apache/iceberg/arrow/vectorized/VectorizedArrowReader.java

spark/v3.5/spark/src/test/java/org/apache/iceberg/spark/data/GenericsHelpers.java

spark/v3.5/spark/src/test/java/org/apache/iceberg/spark/data/TestHelpers.java

…eads

amogh-jahagirdar · 2025-04-30T22:33:17Z

arrow/src/main/java/org/apache/iceberg/arrow/vectorized/VectorizedArrowReader.java

+  public static VectorizedArrowReader rowIds(Long baseRowId, VectorizedArrowReader idReader) {
+    if (baseRowId != null) {
+      return new RowIdVectorReader(baseRowId, idReader);
+    } else {
+      return nulls();
+    }
+  }
+
+  public static VectorizedArrowReader lastUpdated(
+      Long baseRowId, Long fileLastUpdated, VectorizedArrowReader seqReader) {
+    if (fileLastUpdated != null && baseRowId != null) {
+      return new LastUpdatedSeqVectorReader(fileLastUpdated, seqReader);
+    } else {
+      return nulls();
+    }
+  }
+
+  public static VectorizedReader<?> replaceWithMetadataReader(
+      Types.NestedField icebergField,
+      VectorizedReader<?> reader,
+      Map<Integer, ?> idToConstant,
+      boolean setArrowValidityVector) {
+    int id = icebergField.fieldId();
+    if (id == MetadataColumns.ROW_ID.fieldId()) {
+      Long baseRowId = (Long) idToConstant.get(id);
+      return rowIds(baseRowId, (VectorizedArrowReader) reader);
+    } else if (id == MetadataColumns.LAST_UPDATED_SEQUENCE_NUMBER.fieldId()) {
+      Long baseRowId = (Long) idToConstant.get(id);
+      Long fileSeqNumber = (Long) idToConstant.get(id);
+      return VectorizedArrowReader.lastUpdated(
+          baseRowId, fileSeqNumber, (VectorizedArrowReader) reader);
+    } else if (idToConstant.containsKey(id)) {
+      // containsKey is used because the constant may be null
+      return new ConstantVectorReader<>(icebergField, idToConstant.get(id));
+    } else if (id == MetadataColumns.ROW_POSITION.fieldId()) {
+      if (setArrowValidityVector) {
+        return positionsWithSetArrowValidityVector();
+      } else {
+        return VectorizedArrowReader.positions();
+      }
+    } else if (id == MetadataColumns.IS_DELETED.fieldId()) {
+      return new DeletedVectorReader();
+    }


This is all pretty similar to what was done with the ParquetValueReader

amogh-jahagirdar · 2025-04-30T22:34:49Z

arrow/src/main/java/org/apache/iceberg/arrow/vectorized/VectorizedReaderBuilder.java

+      VectorizedReader<?> reader =
+          VectorizedArrowReader.replaceWithMetadataReader(
+              field, readersById.get(field.fieldId()), idToConstant, setArrowValidityVector);
+      reorderedFields.add(defaultReader(field, reader));


Same as the refactoring done in https://github.com/apache/iceberg/pull/12836/files

spark/v3.5/spark/src/test/java/org/apache/iceberg/spark/data/TestHelpers.java

...ons/src/test/java/org/apache/iceberg/spark/extensions/TestRowLevelOperationsWithLineage.java

arrow/src/main/java/org/apache/iceberg/arrow/vectorized/VectorizedArrowReader.java

nastra · 2025-05-15T07:04:45Z

arrow/src/main/java/org/apache/iceberg/arrow/vectorized/VectorizedArrowReader.java

+
+        BigIntVector rowIds = allocateBigIntVector(ROW_ID_ARROW_FIELD, numValsToRead);
+        ArrowBuf dataBuffer = rowIds.getDataBuffer();
+        for (int i = 0; i < numValsToRead; i += 1) {


Suggested change

for (int i = 0; i < numValsToRead; i += 1) {

for (int i = 0; i < numValsToRead; i++) {

Happy to change it if you feel strongly about it, but I mostly just followed the increment pattern of i += 1 already in this class (and this package it looks like). If we do change it, I'd change it for the other instances in this class just to keep things consistent.

I actually didn't realize that we have so many places that do i += 1 in for loops. It's not a big deal and I don't feel strong about it but it would be great to fix this throughout the codebase in a separate PR

nastra · 2025-05-15T07:07:07Z

arrow/src/main/java/org/apache/iceberg/arrow/vectorized/VectorizedArrowReader.java

+
+    @Override
+    public void close() {
+      // don't close vectors as they are not owned by readers


it appears that the vectors are being closed in the read() method

I made this comment a bit more specific to say the "result vectors" since I previously copy/pasted from the other reader but I think the intent is just to be for the result vectors, lmk what you think.

I believe we can and should safely close the intermediate vectors used for calculations on the inheritane path. For instance I think for the position vectors used for calculating row IDs in case it's null or the underlying materialized row id reader, those can safely be closed after reading a batch since those vectors are scoped to the read. After that, they don't need to be used externally and I think it makes sense to close them as soon as we know it's not needed anymore.

I think the part that cannot be closed are the vectors containing the contents of the results of the reader (e.g. the BigIntVector rowIds = allocateBigIntVector(...) since then we'd be freeing contents before external readers could use them.

...c/test/java/org/apache/iceberg/spark/data/parquet/vectorized/TestParquetVectorizedReads.java

amogh-jahagirdar · 2025-06-05T22:59:51Z

Thanks @nastra I will go ahead and merge

github-actions bot added spark arrow data labels Apr 29, 2025

amogh-jahagirdar changed the title ~~Vectorized parquet row lineage~~ Row lineage Vectorized Parquet Reader Apr 29, 2025

amogh-jahagirdar changed the title ~~Row lineage Vectorized Parquet Reader~~ Spark, Arrow: Support for Row lineage when doing Vectorized Parquet reads Apr 29, 2025

amogh-jahagirdar force-pushed the vectorized-parquet-row-lineage branch from 5982dc7 to b5e6d2e Compare April 29, 2025 06:01

amogh-jahagirdar commented Apr 29, 2025

View reviewed changes

arrow/src/main/java/org/apache/iceberg/arrow/vectorized/VectorizedArrowReader.java Outdated Show resolved Hide resolved

amogh-jahagirdar commented Apr 29, 2025

View reviewed changes

spark/v3.5/spark/src/test/java/org/apache/iceberg/spark/data/GenericsHelpers.java Outdated Show resolved Hide resolved

amogh-jahagirdar commented Apr 29, 2025

View reviewed changes

spark/v3.5/spark/src/test/java/org/apache/iceberg/spark/data/TestHelpers.java Outdated Show resolved Hide resolved

amogh-jahagirdar changed the title ~~Spark, Arrow: Support for Row lineage when doing Vectorized Parquet reads~~ Spark 3.5, Arrow: Support for Row lineage when doing Vectorized Parquet reads Apr 29, 2025

amogh-jahagirdar force-pushed the vectorized-parquet-row-lineage branch 7 times, most recently from dc9b308 to 6d432c4 Compare April 29, 2025 17:06

amogh-jahagirdar added 2 commits April 30, 2025 15:11

Spark, Arrow: Support for Row lineage when doing Vectorized Parquet r…

908c14f

…eads

fixes

896a93b

amogh-jahagirdar force-pushed the vectorized-parquet-row-lineage branch from 8cc09bd to 896a93b Compare April 30, 2025 21:14

remove unused methods

11dac99

amogh-jahagirdar force-pushed the vectorized-parquet-row-lineage branch from e23a906 to 110c80f Compare April 30, 2025 22:29

amogh-jahagirdar marked this pull request as ready for review April 30, 2025 22:30

amogh-jahagirdar requested review from rdblue and nastra April 30, 2025 22:30

amogh-jahagirdar changed the title ~~Spark 3.5, Arrow: Support for Row lineage when doing Vectorized Parquet reads~~ Spark 3.5, Arrow: Support for Row lineage when using the Parquet Vectorized reader Apr 30, 2025

bit more cleanup

2c4f57f

amogh-jahagirdar force-pushed the vectorized-parquet-row-lineage branch from 110c80f to 2c4f57f Compare April 30, 2025 22:32

amogh-jahagirdar commented Apr 30, 2025

View reviewed changes

spark/v3.5/spark/src/test/java/org/apache/iceberg/spark/data/TestHelpers.java Show resolved Hide resolved

amogh-jahagirdar commented May 1, 2025

View reviewed changes

...ons/src/test/java/org/apache/iceberg/spark/extensions/TestRowLevelOperationsWithLineage.java Show resolved Hide resolved

amogh-jahagirdar commented May 1, 2025

View reviewed changes

arrow/src/main/java/org/apache/iceberg/arrow/vectorized/VectorizedArrowReader.java Outdated Show resolved Hide resolved

make sure we're closing intermediate batches while reading

e63f33e

nastra reviewed May 15, 2025

View reviewed changes

arrow/src/main/java/org/apache/iceberg/arrow/vectorized/VectorizedArrowReader.java Outdated Show resolved Hide resolved

nastra reviewed May 15, 2025

View reviewed changes

...c/test/java/org/apache/iceberg/spark/data/parquet/vectorized/TestParquetVectorizedReads.java Outdated Show resolved Hide resolved

Add a test which tests many records, cleanup inline comments

544302b

amogh-jahagirdar requested a review from nastra May 26, 2025 15:43

nastra approved these changes Jun 4, 2025

View reviewed changes

amogh-jahagirdar merged commit 73b179c into apache:main Jun 5, 2025
39 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Spark 3.5, Arrow: Support for Row lineage when using the Parquet Vectorized reader #12928

Spark 3.5, Arrow: Support for Row lineage when using the Parquet Vectorized reader #12928

Uh oh!

amogh-jahagirdar commented Apr 29, 2025 •

edited

Loading

Uh oh!

amogh-jahagirdar commented Apr 29, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

amogh-jahagirdar Apr 30, 2025

Uh oh!

amogh-jahagirdar Apr 30, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

nastra May 15, 2025

Uh oh!

amogh-jahagirdar May 26, 2025

Uh oh!

nastra Jun 4, 2025

Uh oh!

nastra May 15, 2025

Uh oh!

amogh-jahagirdar May 26, 2025

Uh oh!

Uh oh!

amogh-jahagirdar commented Jun 5, 2025

Uh oh!

Uh oh!

Uh oh!

	for (int i = 0; i < numValsToRead; i += 1) {
	for (int i = 0; i < numValsToRead; i++) {

Spark 3.5, Arrow: Support for Row lineage when using the Parquet Vectorized reader #12928

Spark 3.5, Arrow: Support for Row lineage when using the Parquet Vectorized reader #12928

Uh oh!

Conversation

amogh-jahagirdar commented Apr 29, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

amogh-jahagirdar commented Apr 29, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

amogh-jahagirdar Apr 30, 2025

Choose a reason for hiding this comment

Uh oh!

amogh-jahagirdar Apr 30, 2025

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

nastra May 15, 2025

Choose a reason for hiding this comment

Uh oh!

amogh-jahagirdar May 26, 2025

Choose a reason for hiding this comment

Uh oh!

nastra Jun 4, 2025

Choose a reason for hiding this comment

Uh oh!

nastra May 15, 2025

Choose a reason for hiding this comment

Uh oh!

amogh-jahagirdar May 26, 2025

Choose a reason for hiding this comment

Uh oh!

Uh oh!

amogh-jahagirdar commented Jun 5, 2025

Uh oh!

Uh oh!

Uh oh!

amogh-jahagirdar commented Apr 29, 2025 •

edited

Loading