apache · sentomk · May 27, 2026 · May 27, 2026 · wgtmac · May 28, 2026
diff --git a/src/iceberg/expression/strict_metrics_evaluator.cc b/src/iceberg/expression/strict_metrics_evaluator.cc
@@ -436,18 +436,39 @@ class StrictMetricsVisitor : public BoundVisitor<bool> {
   }
 
   bool CanContainNulls(int32_t id) {
+    auto field_result = schema_.GetFieldById(id);
+    if (field_result.has_value() && field_result->has_value() &&
+        !field_result->value().get().optional()) {
+      return false;
+    }
+
     if (data_file_.null_value_counts.empty()) {
       return true;
     }
     auto it = data_file_.null_value_counts.find(id);
-    return it != data_file_.null_value_counts.cend() && it->second > 0;
+    if (it == data_file_.null_value_counts.cend()) {
+      return true;
+    }
+    return it->second > 0;
   }
 
   bool CanContainNaNs(int32_t id) {
-    // nan counts might be null for early version writers when nan counters are not
-    // populated.
+    auto field_result = schema_.GetFieldById(id);
+    if (field_result.has_value() && field_result->has_value()) {
+      auto type_id = field_result->value().get().type()->type_id();
+      if (type_id != TypeId::kFloat && type_id != TypeId::kDouble) {
+        return false;
+      }
+    }
+
+    if (data_file_.nan_value_counts.empty()) {
+      return true;
+    }
     auto it = data_file_.nan_value_counts.find(id);
-    return it != data_file_.nan_value_counts.cend() && it->second > 0;
+    if (it == data_file_.nan_value_counts.cend()) {
+      return true;
+    }
+    return it->second > 0;
   }
 
   bool ContainsNullsOnly(int32_t id) {

diff --git a/src/iceberg/test/strict_metrics_evaluator_test.cc b/src/iceberg/test/strict_metrics_evaluator_test.cc
@@ -846,4 +846,50 @@ TEST_F(StrictMetricsEvaluatorMigratedTest, EvaluateOnNestedColumnWithStats) {
   ExpectShouldRead(Expressions::NotNull("struct.nested_col_with_stats"), false);
 }
 
+TEST_F(StrictMetricsEvaluatorMigratedTest, MissingNullCountForField) {
+  // Field 14 (no_nan_stats, float64, optional) has bounds and value_counts but is
+  // missing from null_value_counts. The evaluator must conservatively assume nulls
+  // may exist and return kRowsMightNotMatch for comparison operators.
+  auto data_file = std::make_shared<DataFile>();
+  data_file->file_path = "null_test.parquet";
+  data_file->file_format = FileFormatType::kParquet;
+  data_file->record_count = 50;
+  data_file->value_counts = {{14, 50L}};
+  data_file->null_value_counts = {{4, 0L}, {5, 0L}};
+  data_file->nan_value_counts = {{14, 0L}};
+  data_file->lower_bounds = {{14, Literal::Double(1.0).Serialize().value()}};
+  data_file->upper_bounds = {{14, Literal::Double(100.0).Serialize().value()}};
+
+  ExpectShouldRead(Expressions::LessThan("no_nan_stats", Literal::Double(200.0)), false,
+                   data_file);
+  ExpectShouldRead(Expressions::LessThanOrEqual("no_nan_stats", Literal::Double(200.0)),
+                   false, data_file);
+  ExpectShouldRead(Expressions::GreaterThan("no_nan_stats", Literal::Double(-1.0)), false,
+                   data_file);
+  ExpectShouldRead(Expressions::GreaterThanOrEqual("no_nan_stats", Literal::Double(-1.0)),
+                   false, data_file);
+  ExpectShouldRead(Expressions::Equal("no_nan_stats", Literal::Double(50.0)), false,
+                   data_file);
+}
+
+TEST_F(StrictMetricsEvaluatorMigratedTest, MissingNanCountForField) {
+  // Field 14 (no_nan_stats, float64, optional) is missing from nan_value_counts.
+  // For a floating-point field, the evaluator must conservatively assume NaNs may
+  // exist and return kRowsMightNotMatch for comparison operators.
+  auto data_file = std::make_shared<DataFile>();
+  data_file->file_path = "nan_test.parquet";
+  data_file->file_format = FileFormatType::kParquet;
+  data_file->record_count = 50;
+  data_file->value_counts = {{14, 50L}};
+  data_file->null_value_counts = {{14, 0L}};
+  data_file->nan_value_counts = {{8, 0L}};
+  data_file->lower_bounds = {{14, Literal::Double(1.0).Serialize().value()}};
+  data_file->upper_bounds = {{14, Literal::Double(100.0).Serialize().value()}};
+
+  ExpectShouldRead(Expressions::LessThan("no_nan_stats", Literal::Double(200.0)), false,
+                   data_file);
+  ExpectShouldRead(Expressions::GreaterThan("no_nan_stats", Literal::Double(-1.0)), false,
+                   data_file);
+}
+
 }  // namespace iceberg