more cleanup

amogh-jahagirdar · amogh-jahagirdar · commit 2f1dca117715 · 2025-04-29T07:47:53.000-06:00
diff --git a/data/src/test/java/org/apache/iceberg/data/RandomGenericData.java b/data/src/test/java/org/apache/iceberg/data/RandomGenericData.java
@@ -37,6 +37,7 @@
 import java.util.function.Supplier;
 import org.apache.iceberg.RandomVariants;
 import org.apache.iceberg.Schema;
+import org.apache.iceberg.relocated.com.google.common.base.Preconditions;
 import org.apache.iceberg.relocated.com.google.common.collect.Lists;
 import org.apache.iceberg.relocated.com.google.common.collect.Maps;
 import org.apache.iceberg.relocated.com.google.common.collect.Sets;
@@ -53,13 +54,6 @@ public static List<Record> generate(Schema schema, int numRecords, long seed) {
         generateIcebergGenerics(schema, numRecords, () -> new RandomRecordGenerator(seed)));
   }
 
-  public static List<Record> generate(
-      Schema schema, int numRecords, long seed, float nullPercentage) {
-    return Lists.newArrayList(
-        generateIcebergGenerics(
-            schema, numRecords, () -> new RandomRecordGenerator(seed, nullPercentage)));
-  }
-
   public static Iterable<Record> generateFallbackRecords(
       Schema schema, int numRecords, long seed, long numDictRows) {
     return generateIcebergGenerics(
@@ -187,6 +181,9 @@ protected RandomDataGenerator(long seed) {
     }
 
     protected RandomDataGenerator(long seed, float nullPercentage) {
+      Preconditions.checkArgument(
+          0.0f <= nullPercentage && nullPercentage <= 1.0f,
+          "Percentage needs to be in the range (0.0, 1.0)");
       this.random = new Random(seed);
       this.nullPercentage = nullPercentage;
     }
diff --git a/data/src/test/java/org/apache/iceberg/data/TestLocalScan.java b/data/src/test/java/org/apache/iceberg/data/TestLocalScan.java
@@ -264,42 +264,18 @@ public void testRandomData() throws IOException {
 
     append.commit();
 
-    RecordComparator comparator = new RecordComparator();
+    Comparator<Record> recordComparator =
+        Comparator.comparing((Record r) -> r.get(0, Long.class))
+            .thenComparing(
+                (Record r) -> r.get(1, String.class), Comparator.nullsFirst(String::compareTo));
     List<Record> records = Lists.newArrayList(IcebergGenerics.read(table).build());
 
-    expected.sort(comparator);
-    records.sort(comparator);
+    expected.sort(recordComparator);
+    records.sort(recordComparator);
     assertThat(records).as("Should produce correct number of records").hasSameSizeAs(expected);
     assertThat(records).as("Random record set should match").isEqualTo(expected);
   }
 
-  private static class RecordComparator implements Comparator<Record> {
-    @Override
-    public int compare(Record r1, Record r2) {
-      // Compare by ID (never null)
-      int idCmp = Long.compare(r1.get(0, Long.class), r2.get(0, Long.class));
-      if (idCmp != 0) {
-        return idCmp;
-      }
-
-      // Compare by data, nulls first
-      String dataFirst = r1.get(1, String.class);
-      String dataSecond = r2.get(1, String.class);
-
-      if (dataFirst == null && dataSecond == null) {
-        return 0;
-      }
-      if (dataFirst == null) {
-        return -1;
-      }
-      if (dataSecond == null) {
-        return 1;
-      }
-
-      return dataFirst.compareTo(dataSecond);
-    }
-  }
-
   @TestTemplate
   public void testFullScan() {
     Iterable<Record> results = IcebergGenerics.read(sharedTable).build();
diff --git a/spark/v3.4/spark/src/test/java/org/apache/iceberg/spark/data/RandomData.java b/spark/v3.4/spark/src/test/java/org/apache/iceberg/spark/data/RandomData.java
@@ -241,12 +241,16 @@ protected Object randomValue(Type.PrimitiveType primitive, Random rand) {
 
   private static class SparkRandomDataGenerator extends TypeUtil.CustomOrderSchemaVisitor<Object> {
     private final Random random;
+    private final float nullPercentage;
 
     private SparkRandomDataGenerator(long seed) {
       this(seed, DEFAULT_NULL_PERCENTAGE);
     }
 
     private SparkRandomDataGenerator(long seed, float nullPercentage) {
+      Preconditions.checkArgument(
+          0.0f <= nullPercentage && nullPercentage <= 1.0f,
+          "Percentage needs to be in the range (0.0, 1.0)");
       this.random = new Random(seed);
       this.nullPercentage = nullPercentage;
     }
diff --git a/spark/v3.5/spark/src/test/java/org/apache/iceberg/spark/data/GenericsHelpers.java b/spark/v3.5/spark/src/test/java/org/apache/iceberg/spark/data/GenericsHelpers.java
@@ -77,24 +77,7 @@ public static void assertEqualsBatch(
     for (int rowId = 0; rowId < batch.numRows(); rowId++) {
       InternalRow row = batch.getRow(rowId);
       Record expectedRecord = expectedRecords.next();
-      Types.StructType expectedRecordType = expectedRecord.struct();
-      List<Types.NestedField> fields = struct.fields();
-
-      for (int readPos = 0; readPos < fields.size(); readPos += 1) {
-        Types.NestedField field = fields.get(readPos);
-        Types.NestedField expectedField = expectedRecordType.field(field.fieldId());
-        Object expectedValue;
-        Object actualValue = row.isNullAt(readPos) ? null : row.get(readPos, convert(field.type()));
-        if (expectedField != null) {
-          expectedValue = expectedRecord.getField(expectedField.name());
-          assertEqualsUnsafe(field.type(), expectedValue, actualValue);
-        } else {
-          assertEqualsUnsafe(
-              field.type(),
-              GenericDataUtil.internalToGeneric(field.type(), field.initialDefault()),
-              actualValue);
-        }
-      }
+      assertEqualsUnsafe(struct, expectedRecord, row);
     }
   }
 
diff --git a/spark/v3.5/spark/src/test/java/org/apache/iceberg/spark/data/RandomData.java b/spark/v3.5/spark/src/test/java/org/apache/iceberg/spark/data/RandomData.java
@@ -248,6 +248,9 @@ private SparkRandomDataGenerator(long seed) {
     }
 
     private SparkRandomDataGenerator(long seed, float nullPercentage) {
+      Preconditions.checkArgument(
+          0.0f <= nullPercentage && nullPercentage <= 1.0f,
+          "Percentage needs to be in the range (0.0, 1.0)");
       this.random = new Random(seed);
       this.nullPercentage = nullPercentage;
     }
diff --git a/spark/v3.5/spark/src/test/java/org/apache/iceberg/spark/data/parquet/vectorized/TestParquetDictionaryEncodedVectorizedReads.java b/spark/v3.5/spark/src/test/java/org/apache/iceberg/spark/data/parquet/vectorized/TestParquetDictionaryEncodedVectorizedReads.java
@@ -42,7 +42,6 @@
 import org.apache.iceberg.relocated.com.google.common.collect.ImmutableList;
 import org.apache.iceberg.relocated.com.google.common.collect.ImmutableMap;
 import org.apache.iceberg.relocated.com.google.common.collect.Iterables;
-import org.apache.iceberg.spark.data.RandomData;
 import org.apache.iceberg.spark.data.TestHelpers;
 import org.apache.iceberg.spark.data.vectorized.VectorizedSparkParquetReaders;
 import org.apache.iceberg.types.Types;
@@ -96,16 +95,14 @@ public void testMixedDictionaryNonDictionaryReads() throws IOException {
     File dictionaryEncodedFile = File.createTempFile("junit", null, temp.toFile());
     assertThat(dictionaryEncodedFile.delete()).as("Delete should succeed").isTrue();
     Iterable<Record> dictionaryEncodableData =
-        RandomGenericData.generateDictionaryEncodableRecords(
-            schema, 10000, 0L, RandomData.DEFAULT_NULL_PERCENTAGE);
+        RandomGenericData.generateDictionaryEncodableRecords(schema, 10000, 0L);
     try (FileAppender<Record> writer = getParquetWriter(schema, dictionaryEncodedFile)) {
       writer.addAll(dictionaryEncodableData);
     }
 
     File plainEncodingFile = File.createTempFile("junit", null, temp.toFile());
     assertThat(plainEncodingFile.delete()).as("Delete should succeed").isTrue();
-    Iterable<Record> nonDictionaryData =
-        RandomGenericData.generate(schema, 10000, 0L, RandomData.DEFAULT_NULL_PERCENTAGE);
+    Iterable<Record> nonDictionaryData = RandomGenericData.generate(schema, 10000, 0L);
     try (FileAppender<Record> writer = getParquetWriter(schema, plainEncodingFile)) {
       writer.addAll(nonDictionaryData);
     }
diff --git a/spark/v3.5/spark/src/test/java/org/apache/iceberg/spark/data/parquet/vectorized/TestParquetDictionaryFallbackToPlainEncodingVectorizedReads.java b/spark/v3.5/spark/src/test/java/org/apache/iceberg/spark/data/parquet/vectorized/TestParquetDictionaryFallbackToPlainEncodingVectorizedReads.java
@@ -59,9 +59,9 @@ Iterable<Record> generateData(
   FileAppender<Record> getParquetWriter(Schema schema, File testFile) throws IOException {
     return Parquet.write(Files.localOutput(testFile))
         .schema(schema)
+        .createWriterFunc(GenericParquetWriter::create)
         .named("test")
         .set(TableProperties.PARQUET_DICT_SIZE_BYTES, "512000")
-        .createWriterFunc(GenericParquetWriter::create)
         .build();
   }
 
diff --git a/spark/v3.5/spark/src/test/java/org/apache/iceberg/spark/data/parquet/vectorized/TestParquetVectorizedReads.java b/spark/v3.5/spark/src/test/java/org/apache/iceberg/spark/data/parquet/vectorized/TestParquetVectorizedReads.java
@@ -143,17 +143,17 @@ Iterable<Record> generateData(
   FileAppender<Record> getParquetWriter(Schema schema, File testFile) throws IOException {
     return Parquet.write(Files.localOutput(testFile))
         .schema(schema)
-        .named("test")
         .createWriterFunc(GenericParquetWriter::create)
+        .named("test")
         .build();
   }
 
   FileAppender<Record> getParquetV2Writer(Schema schema, File testFile) throws IOException {
     return Parquet.write(Files.localOutput(testFile))
         .schema(schema)
+        .createWriterFunc(GenericParquetWriter::create)
         .named("test")
         .writerVersion(ParquetProperties.WriterVersion.PARQUET_2_0)
-        .createWriterFunc(GenericParquetWriter::create)
         .build();
   }
 

Original file line number	Diff line number	Diff line change
`@@ -241,12 +241,16 @@ protected Object randomValue(Type.PrimitiveType primitive, Random rand) {`
`241`	`241`
`242`	`242`	`private static class SparkRandomDataGenerator extends TypeUtil.CustomOrderSchemaVisitor<Object> {`
`243`	`243`	`private final Random random;`
	`244`	`+ private final float nullPercentage;`
`244`	`245`
`245`	`246`	`private SparkRandomDataGenerator(long seed) {`
`246`	`247`	`this(seed, DEFAULT_NULL_PERCENTAGE);`
`247`	`248`	`}`
`248`	`249`
`249`	`250`	`private SparkRandomDataGenerator(long seed, float nullPercentage) {`
	`251`	`+ Preconditions.checkArgument(`
	`252`	`+ 0.0f <= nullPercentage && nullPercentage <= 1.0f,`
	`253`	`+ "Percentage needs to be in the range (0.0, 1.0)");`
`250`	`254`	`this.random = new Random(seed);`
`251`	`255`	`this.nullPercentage = nullPercentage;`
`252`	`256`	`}`
Original file line number	Diff line number	Diff line change
`@@ -248,6 +248,9 @@ private SparkRandomDataGenerator(long seed) {`
`248`	`248`	`}`
`249`	`249`
`250`	`250`	`private SparkRandomDataGenerator(long seed, float nullPercentage) {`
	`251`	`+ Preconditions.checkArgument(`
	`252`	`+ 0.0f <= nullPercentage && nullPercentage <= 1.0f,`
	`253`	`+ "Percentage needs to be in the range (0.0, 1.0)");`
`251`	`254`	`this.random = new Random(seed);`
`252`	`255`	`this.nullPercentage = nullPercentage;`
`253`	`256`	`}`