libcudf: parquet.hpp Source File

 /*

  * SPDX-FileCopyrightText: Copyright (c) 2020-2026, NVIDIA CORPORATION.

  * SPDX-License-Identifier: Apache-2.0

  */


 #pragma once


 #include <cudf/ast/expressions.hpp>

 #include <cudf/io/detail/parquet.hpp>

 #include <cudf/io/types.hpp>

 #include <cudf/table/table_view.hpp>

 #include <cudf/types.hpp>

 #include <cudf/utilities/export.hpp>

 #include <cudf/utilities/memory_resource.hpp>


 #include <memory>

 #include <optional>

 #include <string>

 #include <utility>

 #include <vector>


 namespace CUDF_EXPORT cudf {

 namespace io {

 constexpr size_t default_row_group_size_bytes =

   std::numeric_limits<size_t>::max();

 constexpr size_type default_row_group_size_rows = 1'000'000;

 constexpr size_t default_max_page_size_bytes    = 512 * 1024;

 constexpr size_type default_max_page_size_rows  = 20000;

 constexpr int32_t default_column_index_truncate_length = 64;

 constexpr size_t default_max_dictionary_size           = 1024 * 1024;

 constexpr size_type default_max_page_fragment_size     = 5000;


 [[nodiscard]] bool is_supported_read_parquet(compression_type compression);


 [[nodiscard]] bool is_supported_write_parquet(compression_type compression);


 class parquet_reader_options_builder;


 class parquet_reader_options {

   source_info _source;


   // Path in schema of column names to read; `nullopt` is all

   std::optional<std::vector<std::string>> _column_names;

   // Indices of top-level columns to read; `nullopt` is all (cannot be used alongside

   // `_column_names`)

   std::optional<std::vector<cudf::size_type>> _column_indices;


   // List of individual row groups to read (ignored if empty)

   std::vector<std::vector<size_type>> _row_groups;

   // Number of rows to skip from the start; Parquet stores the number of rows as int64_t

   int64_t _skip_rows = 0;

   // Number of rows to read; `nullopt` is all

   std::optional<int64_t> _num_rows;


   // Read row groups that start at or after this byte offset into the source

   size_t _skip_bytes = 0;

   // Read row groups that start before _num_bytes bytes after _skip_bytes into the source

   std::optional<size_t> _num_bytes;


   // Predicate filter as AST to filter output rows.

   std::optional<std::reference_wrapper<ast::expression const>> _filter;


   // Whether to store string data as categorical type

   bool _convert_strings_to_categories = false;

   // Whether to use PANDAS metadata to load columns

   bool _use_pandas_metadata = true;

   // Whether to read and use ARROW schema

   bool _use_arrow_schema = true;

   // Whether to allow reading matching select columns from mismatched Parquet files.

   bool _allow_mismatched_pq_schemas = false;

   // Whether to ignore non-existent projected columns

   bool _ignore_missing_columns = true;

   // Cast timestamp columns to a specific type

   data_type _timestamp_type{type_id::EMPTY};

   // Cast decimal columns to a specific width

   type_id _decimal_width{type_id::EMPTY};

   // Whether to use JIT compilation for filtering

   bool _use_jit_filter = false;

   // Whether column name matching is case sensitive. In case of multiple

   // case-insensitive matches, the first matched column is selected

   bool _case_sensitive_names = true;


   std::optional<std::vector<reader_column_schema>> _reader_column_schema;


   explicit parquet_reader_options(source_info src) : _source{std::move(src)} {}


   friend parquet_reader_options_builder;


  public:

   explicit parquet_reader_options() = default;


   static parquet_reader_options_builder builder(source_info src = source_info{});


   [[nodiscard]] source_info const& get_source() const { return _source; }


   [[nodiscard]] bool is_enabled_convert_strings_to_categories() const

   {

     return _convert_strings_to_categories;

   }


   [[nodiscard]] bool is_enabled_use_pandas_metadata() const { return _use_pandas_metadata; }


   [[nodiscard]] bool is_enabled_use_arrow_schema() const { return _use_arrow_schema; }


   [[nodiscard]] bool is_enabled_allow_mismatched_pq_schemas() const

   {

     return _allow_mismatched_pq_schemas;

   }


   [[nodiscard]] bool is_enabled_ignore_missing_columns() const { return _ignore_missing_columns; }


   [[nodiscard]] std::optional<std::vector<reader_column_schema>> get_column_schema() const

   {

     return _reader_column_schema;

   }


   [[nodiscard]] int64_t get_skip_rows() const { return _skip_rows; }


   [[nodiscard]] std::optional<int64_t> const& get_num_rows() const { return _num_rows; }


   [[nodiscard]] size_t get_skip_bytes() const { return _skip_bytes; }


   [[nodiscard]] std::optional<size_t> const& get_num_bytes() const { return _num_bytes; }


   [[nodiscard]] [[deprecated("Use `get_column_names` instead.")]] auto const& get_columns() const

   {

     return _column_names;

   }


   [[nodiscard]] auto const& get_column_names() const { return _column_names; }


   [[nodiscard]] auto const& get_column_indices() const { return _column_indices; }


   [[nodiscard]] auto const& get_row_groups() const { return _row_groups; }


   [[nodiscard]] auto const& get_filter() const { return _filter; }


   [[nodiscard]] data_type get_timestamp_type() const { return _timestamp_type; }


   [[nodiscard]] type_id get_decimal_width() const { return _decimal_width; }


   [[nodiscard]] bool is_enabled_use_jit_filter() const { return _use_jit_filter; }


   [[nodiscard]] bool is_enabled_case_sensitive_names() const { return _case_sensitive_names; }


   void set_source(source_info src) { _source = std::move(src); }


   [[deprecated("Use `set_column_names` instead.")]] void set_columns(

     std::vector<std::string> column_names)

   {

     set_column_names(std::move(column_names));

   }


   void set_column_names(std::vector<std::string> column_names)

   {

     CUDF_EXPECTS(not _column_indices.has_value(),

                  "Cannot select columns by indices and names simultaneously");

     _column_names = std::move(column_names);

   }


   void set_column_indices(std::vector<cudf::size_type> col_indices)

   {

     CUDF_EXPECTS(not _column_names.has_value(),

                  "Cannot select columns by indices and names simultaneously");

     _column_indices = std::move(col_indices);

   }


   void set_row_groups(std::vector<std::vector<size_type>> row_groups);


   void set_filter(ast::expression const& filter) { _filter = filter; }


   void enable_convert_strings_to_categories(bool val) { _convert_strings_to_categories = val; }


   void enable_use_pandas_metadata(bool val) { _use_pandas_metadata = val; }


   void enable_use_arrow_schema(bool val) { _use_arrow_schema = val; }


   void enable_allow_mismatched_pq_schemas(bool val) { _allow_mismatched_pq_schemas = val; }


   void enable_ignore_missing_columns(bool val) { _ignore_missing_columns = val; }


   void set_column_schema(std::vector<reader_column_schema> val)

   {

     _reader_column_schema = std::move(val);

   }


   void set_skip_rows(int64_t val);


   void set_num_rows(int64_t val);


   void set_skip_bytes(size_t val);


   void set_num_bytes(size_t val);


   void set_timestamp_type(data_type type) { _timestamp_type = type; }


   void set_decimal_width(type_id width) { _decimal_width = width; }


   void enable_case_sensitive_names(bool val) { _case_sensitive_names = val; }

 };


 class parquet_reader_options_builder {

   parquet_reader_options options;


  public:

   parquet_reader_options_builder() = default;


   explicit parquet_reader_options_builder(source_info src) : options{std::move(src)} {}


   [[deprecated("Use `column_names` instead.")]] parquet_reader_options_builder& columns(

     std::vector<std::string> column_names)

   {

     return this->column_names(std::move(column_names));

   }


   parquet_reader_options_builder& column_names(std::vector<std::string> column_names)

   {

     options.set_column_names(std::move(column_names));

     return *this;

   }


   parquet_reader_options_builder& column_indices(std::vector<cudf::size_type> col_indices)

   {

     options.set_column_indices(std::move(col_indices));

     return *this;

   }


   parquet_reader_options_builder& row_groups(std::vector<std::vector<size_type>> row_groups)

   {

     options.set_row_groups(std::move(row_groups));

     return *this;

   }


   parquet_reader_options_builder& filter(ast::expression const& filter)

   {

     options.set_filter(filter);

     return *this;

   }


   parquet_reader_options_builder& convert_strings_to_categories(bool val)

   {

     options._convert_strings_to_categories = val;

     return *this;

   }


   parquet_reader_options_builder& use_pandas_metadata(bool val)

   {

     options._use_pandas_metadata = val;

     return *this;

   }


   parquet_reader_options_builder& use_arrow_schema(bool val)

   {

     options._use_arrow_schema = val;

     return *this;

   }


   parquet_reader_options_builder& allow_mismatched_pq_schemas(bool val)

   {

     options._allow_mismatched_pq_schemas = val;

     return *this;

   }


   parquet_reader_options_builder& ignore_missing_columns(bool val)

   {

     options._ignore_missing_columns = val;

     return *this;

   }


   parquet_reader_options_builder& set_column_schema(std::vector<reader_column_schema> val)

   {

     options._reader_column_schema = std::move(val);

     return *this;

   }


   parquet_reader_options_builder& skip_rows(int64_t val)

   {

     options.set_skip_rows(val);

     return *this;

   }


   parquet_reader_options_builder& num_rows(int64_t val)

   {

     options.set_num_rows(val);

     return *this;

   }


   parquet_reader_options_builder& skip_bytes(size_t val)

   {

     options.set_skip_bytes(val);

     return *this;

   }


   parquet_reader_options_builder& num_bytes(size_t val)

   {

     options.set_num_bytes(val);

     return *this;

   }


   parquet_reader_options_builder& timestamp_type(data_type type)

   {

     options._timestamp_type = type;

     return *this;

   }


   parquet_reader_options_builder& decimal_width(type_id width)

   {

     options._decimal_width = width;

     return *this;

   }


   parquet_reader_options_builder& use_jit_filter(bool use_jit_filter)

   {

     options._use_jit_filter = use_jit_filter;

     return *this;

   }


   parquet_reader_options_builder& case_sensitive_names(bool val)

   {

     options._case_sensitive_names = val;

     return *this;

   }


   operator parquet_reader_options&&() { return std::move(options); }


   parquet_reader_options&& build() { return std::move(options); }

 };


 table_with_metadata read_parquet(

   parquet_reader_options const& options,

   rmm::cuda_stream_view stream      = cudf::get_default_stream(),

   rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref());


 table_with_metadata read_parquet(

   std::vector<std::unique_ptr<cudf::io::datasource>>&& sources,

   std::vector<parquet::FileMetaData>&& parquet_metadatas,

   parquet_reader_options const& options,

   rmm::cuda_stream_view stream      = cudf::get_default_stream(),

   rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref());


 class chunked_parquet_reader {

  public:

   chunked_parquet_reader();


   chunked_parquet_reader(

     std::size_t chunk_read_limit,

     parquet_reader_options const& options,

     rmm::cuda_stream_view stream      = cudf::get_default_stream(),

     rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref());


   chunked_parquet_reader(

     std::size_t chunk_read_limit,

     std::vector<std::unique_ptr<cudf::io::datasource>>&& sources,

     std::vector<parquet::FileMetaData>&& parquet_metadatas,

     parquet_reader_options const& options,

     rmm::cuda_stream_view stream      = cudf::get_default_stream(),

     rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref());


   chunked_parquet_reader(

     std::size_t chunk_read_limit,

     std::size_t pass_read_limit,

     parquet_reader_options const& options,

     rmm::cuda_stream_view stream      = cudf::get_default_stream(),

     rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref());


   chunked_parquet_reader(

     std::size_t chunk_read_limit,

     std::size_t pass_read_limit,

     std::vector<std::unique_ptr<cudf::io::datasource>>&& sources,

     std::vector<parquet::FileMetaData>&& parquet_metadatas,

     parquet_reader_options const& options,

     rmm::cuda_stream_view stream      = cudf::get_default_stream(),

     rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref());


   ~chunked_parquet_reader();


   [[nodiscard]] bool has_next() const;


   [[nodiscard]] table_with_metadata read_chunk() const;


  private:

   std::unique_ptr<cudf::io::parquet::detail::chunked_reader> reader;

 };

   // end of group

 struct sorting_column {

   int column_idx{};

   bool is_descending{false};

   bool is_nulls_first{true};

 };


 class parquet_writer_options_base {

   // Specify the sink to use for writer output

   sink_info _sink;

   // Specify the compression format to use

   compression_type _compression = compression_type::SNAPPY;

   // Specify the level of statistics in the output file

   statistics_freq _stats_level = statistics_freq::STATISTICS_ROWGROUP;

   // Optional associated metadata

   std::optional<table_input_metadata> _metadata;

   // Optional footer key_value_metadata

   std::vector<std::map<std::string, std::string>> _user_data;

   // Parquet writer can write INT96 or TIMESTAMP_MICROS. Defaults to TIMESTAMP_MICROS.

   // If true then overrides any per-column setting in _metadata.

   bool _write_timestamps_as_int96 = false;

   // Parquet writer can write timestamps as UTC

   // Defaults to true because libcudf timestamps are implicitly UTC

   bool _write_timestamps_as_UTC = true;

   // Whether to write ARROW schema

   bool _write_arrow_schema = false;

   // Maximum size of each row group (unless smaller than a single page)

   size_t _row_group_size_bytes = default_row_group_size_bytes;

   // Maximum number of rows in row group (unless smaller than a single page)

   size_type _row_group_size_rows = default_row_group_size_rows;

   // Maximum size of each page (uncompressed)

   size_t _max_page_size_bytes = default_max_page_size_bytes;

   // Maximum number of rows in a page

   size_type _max_page_size_rows = default_max_page_size_rows;

   // Maximum size of min or max values in column index

   int32_t _column_index_truncate_length = default_column_index_truncate_length;

   // When to use dictionary encoding for data

   dictionary_policy _dictionary_policy = dictionary_policy::ADAPTIVE;

   // Maximum size of column chunk dictionary (in bytes)

   size_t _max_dictionary_size = default_max_dictionary_size;

   // Maximum number of rows in a page fragment

   std::optional<size_type> _max_page_fragment_size;

   // Optional compression statistics

   std::shared_ptr<writer_compression_statistics> _compression_stats;

   // write V2 page headers?

   bool _v2_page_headers = false;

   // enable per-page compression decision for V2?

   bool _page_level_compression = false;

   // Which columns in _table are used for sorting

   std::optional<std::vector<sorting_column>> _sorting_columns;


  protected:

   explicit parquet_writer_options_base(sink_info sink) : _sink(std::move(sink)) {}


  public:

   parquet_writer_options_base() = default;


   [[nodiscard]] sink_info const& get_sink() const { return _sink; }


   [[nodiscard]] compression_type get_compression() const { return _compression; }


   [[nodiscard]] statistics_freq get_stats_level() const { return _stats_level; }


   [[nodiscard]] auto const& get_metadata() const { return _metadata; }


   [[nodiscard]] std::vector<std::map<std::string, std::string>> const& get_key_value_metadata()

     const

   {

     return _user_data;

   }


   [[nodiscard]] bool is_enabled_int96_timestamps() const { return _write_timestamps_as_int96; }


   [[nodiscard]] auto is_enabled_utc_timestamps() const { return _write_timestamps_as_UTC; }


   [[nodiscard]] auto is_enabled_write_arrow_schema() const { return _write_arrow_schema; }


   [[nodiscard]] auto get_row_group_size_bytes() const { return _row_group_size_bytes; }


   [[nodiscard]] auto get_row_group_size_rows() const { return _row_group_size_rows; }


   [[nodiscard]] auto get_max_page_size_bytes() const

   {

     return std::min(_max_page_size_bytes, get_row_group_size_bytes());

   }


   [[nodiscard]] auto get_max_page_size_rows() const

   {

     return std::min(_max_page_size_rows, get_row_group_size_rows());

   }


   [[nodiscard]] auto get_column_index_truncate_length() const

   {

     return _column_index_truncate_length;

   }


   [[nodiscard]] dictionary_policy get_dictionary_policy() const { return _dictionary_policy; }


   [[nodiscard]] auto get_max_dictionary_size() const { return _max_dictionary_size; }


   [[nodiscard]] auto get_max_page_fragment_size() const { return _max_page_fragment_size; }


   [[nodiscard]] std::shared_ptr<writer_compression_statistics> get_compression_statistics() const

   {

     return _compression_stats;

   }


   [[nodiscard]] auto is_enabled_write_v2_headers() const { return _v2_page_headers; }


   [[nodiscard]] auto is_enabled_page_level_compression() const { return _page_level_compression; }


   [[nodiscard]] auto const& get_sorting_columns() const { return _sorting_columns; }


   void set_metadata(table_input_metadata metadata);


   void set_key_value_metadata(std::vector<std::map<std::string, std::string>> metadata);


   void set_stats_level(statistics_freq sf);

   void set_compression(compression_type compression);


   void enable_int96_timestamps(bool req);


   void enable_utc_timestamps(bool val);


   void enable_write_arrow_schema(bool val);


   void set_row_group_size_bytes(size_t size_bytes);


   void set_row_group_size_rows(size_type size_rows);


   void set_max_page_size_bytes(size_t size_bytes);


   void set_max_page_size_rows(size_type size_rows);


   void set_column_index_truncate_length(int32_t size_bytes);


   void set_dictionary_policy(dictionary_policy policy);


   void set_max_dictionary_size(size_t size_bytes);


   void set_max_page_fragment_size(size_type size_rows);


   void set_compression_statistics(std::shared_ptr<writer_compression_statistics> comp_stats);


   void enable_write_v2_headers(bool val);


   void enable_page_level_compression(bool val);


   void set_sorting_columns(std::vector<sorting_column> sorting_columns);

 };


 template <class BuilderT, class OptionsT>

 class parquet_writer_options_builder_base {

   OptionsT _options;


  protected:

   inline OptionsT& get_options() { return _options; }


   explicit parquet_writer_options_builder_base(OptionsT options);


  public:

   explicit parquet_writer_options_builder_base() = default;


   BuilderT& metadata(table_input_metadata metadata);


   BuilderT& key_value_metadata(std::vector<std::map<std::string, std::string>> metadata);


   BuilderT& stats_level(statistics_freq sf);


   BuilderT& compression(compression_type compression);


   BuilderT& row_group_size_bytes(size_t val);


   BuilderT& row_group_size_rows(size_type val);


   BuilderT& max_page_size_bytes(size_t val);


   BuilderT& max_page_size_rows(size_type val);


   BuilderT& column_index_truncate_length(int32_t val);


   BuilderT& dictionary_policy(enum dictionary_policy val);


   BuilderT& max_dictionary_size(size_t val);


   BuilderT& max_page_fragment_size(size_type val);


   BuilderT& compression_statistics(

     std::shared_ptr<writer_compression_statistics> const& comp_stats);


   BuilderT& int96_timestamps(bool enabled);


   BuilderT& utc_timestamps(bool enabled);


   BuilderT& write_arrow_schema(bool enabled);


   BuilderT& write_v2_headers(bool enabled);


   BuilderT& page_level_compression(bool enabled);


   BuilderT& sorting_columns(std::vector<sorting_column> sorting_columns);


   operator OptionsT&&();


   OptionsT&& build();

 };


 class parquet_writer_options_builder;


 class parquet_writer_options : public parquet_writer_options_base {

   // Sets of columns to output

   table_view _table;

   // Partitions described as {start_row, num_rows} pairs

   std::vector<partition_info> _partitions;

   // Column chunks file paths to be set in the raw output metadata. One per output file

   std::vector<std::string> _column_chunks_file_paths;


   friend parquet_writer_options_builder;


   explicit parquet_writer_options(sink_info const& sink, table_view table);


  public:

   parquet_writer_options() = default;


   static parquet_writer_options_builder builder(sink_info const& sink, table_view const& table);


   static parquet_writer_options_builder builder();


   [[nodiscard]] table_view get_table() const { return _table; }


   [[nodiscard]] std::vector<partition_info> const& get_partitions() const { return _partitions; }


   [[nodiscard]] std::vector<std::string> const& get_column_chunks_file_paths() const

   {

     return _column_chunks_file_paths;

   }


   void set_partitions(std::vector<partition_info> partitions);


   void set_column_chunks_file_paths(std::vector<std::string> file_paths);

 };


 class parquet_writer_options_builder

   : public parquet_writer_options_builder_base<parquet_writer_options_builder,

                                                parquet_writer_options> {

  public:

   explicit parquet_writer_options_builder() = default;


   explicit parquet_writer_options_builder(sink_info const& sink, table_view const& table);


   parquet_writer_options_builder& partitions(std::vector<partition_info> partitions);


   parquet_writer_options_builder& column_chunks_file_paths(std::vector<std::string> file_paths);

 };


 std::unique_ptr<std::vector<uint8_t>> write_parquet(

   parquet_writer_options const& options, rmm::cuda_stream_view stream = cudf::get_default_stream());


 std::unique_ptr<std::vector<uint8_t>> merge_row_group_metadata(

   std::vector<std::unique_ptr<std::vector<uint8_t>>> const& metadata_list);


 class chunked_parquet_writer_options_builder;


 class chunked_parquet_writer_options : public parquet_writer_options_base {

   explicit chunked_parquet_writer_options(sink_info sink);


   friend chunked_parquet_writer_options_builder;


  public:

   chunked_parquet_writer_options() = default;


   static chunked_parquet_writer_options_builder builder(sink_info const& sink);

 };


 class chunked_parquet_writer_options_builder

   : public parquet_writer_options_builder_base<chunked_parquet_writer_options_builder,

                                                chunked_parquet_writer_options> {

  public:

   chunked_parquet_writer_options_builder() = default;


   chunked_parquet_writer_options_builder(sink_info const& sink);

 };


 class chunked_parquet_writer {

  public:

   chunked_parquet_writer();


   chunked_parquet_writer(chunked_parquet_writer_options const& options,

                          rmm::cuda_stream_view stream = cudf::get_default_stream());

   ~chunked_parquet_writer();


   chunked_parquet_writer& write(table_view const& table,

                                 std::vector<partition_info> const& partitions = {});


   std::unique_ptr<std::vector<uint8_t>> close(

     std::vector<std::string> const& column_chunks_file_path = {});


   std::unique_ptr<parquet::detail::writer> writer;

 };

   // end of group


 }  // namespace io

 }  // namespace CUDF_EXPORT cudf

cudf::data_type
Indicator for the logical data type of an element in a column.
Definition: types.hpp:278

cudf::io::chunked_parquet_reader
The chunked parquet reader class to read Parquet file iteratively in to a series of tables,...
Definition: parquet.hpp:886

cudf::io::chunked_parquet_reader::read_chunk
table_with_metadata read_chunk() const
Read a chunk of rows in the given Parquet file.

cudf::io::chunked_parquet_reader::has_next
bool has_next() const
Check if there is any data in the given file has not yet read.

cudf::io::chunked_parquet_reader::chunked_parquet_reader
chunked_parquet_reader(std::size_t chunk_read_limit, std::vector< std::unique_ptr< cudf::io::datasource >> &&sources, std::vector< parquet::FileMetaData > &&parquet_metadatas, parquet_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
Constructor for chunked reader using pre-existing Parquet datasources and file metadatas.

cudf::io::chunked_parquet_reader::chunked_parquet_reader
chunked_parquet_reader(std::size_t chunk_read_limit, std::size_t pass_read_limit, parquet_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
Constructor for chunked reader.

cudf::io::chunked_parquet_reader::chunked_parquet_reader
chunked_parquet_reader(std::size_t chunk_read_limit, parquet_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
Constructor for chunked reader.

cudf::io::chunked_parquet_reader::chunked_parquet_reader
chunked_parquet_reader(std::size_t chunk_read_limit, std::size_t pass_read_limit, std::vector< std::unique_ptr< cudf::io::datasource >> &&sources, std::vector< parquet::FileMetaData > &&parquet_metadatas, parquet_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
Constructor for chunked reader using pre-existing Parquet datasources and file metadatas.

cudf::io::chunked_parquet_reader::~chunked_parquet_reader
~chunked_parquet_reader()
Destructor, destroying the internal reader instance.

cudf::io::chunked_parquet_reader::chunked_parquet_reader
chunked_parquet_reader()
Default constructor, this should never be used.

cudf::io::chunked_parquet_writer_options_builder
Class to build chunked_parquet_writer_options.
Definition: parquet.hpp:1845

cudf::io::chunked_parquet_writer_options_builder::chunked_parquet_writer_options_builder
chunked_parquet_writer_options_builder()=default
Default constructor.

cudf::io::chunked_parquet_writer_options_builder::chunked_parquet_writer_options_builder
chunked_parquet_writer_options_builder(sink_info const &sink)
Constructor from sink.

cudf::io::chunked_parquet_writer_options
Settings for chunked_parquet_writer.
Definition: parquet.hpp:1812

cudf::io::chunked_parquet_writer_options::builder
static chunked_parquet_writer_options_builder builder(sink_info const &sink)
creates builder to build chunked_parquet_writer_options.

cudf::io::chunked_parquet_writer_options::chunked_parquet_writer_options
chunked_parquet_writer_options()=default
Default constructor.

cudf::io::chunked_parquet_writer
chunked parquet writer class to handle options and write tables in chunks.
Definition: parquet.hpp:1881

cudf::io::chunked_parquet_writer::~chunked_parquet_writer
~chunked_parquet_writer()
Default destructor. This is added to not leak detail API.

cudf::io::chunked_parquet_writer::chunked_parquet_writer
chunked_parquet_writer(chunked_parquet_writer_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream())
Constructor with chunked writer options.

cudf::io::chunked_parquet_writer::close
std::unique_ptr< std::vector< uint8_t > > close(std::vector< std::string > const &column_chunks_file_path={})
Finishes the chunked/streamed write process.

cudf::io::chunked_parquet_writer::writer
std::unique_ptr< parquet::detail::writer > writer
Unique pointer to impl writer class.
Definition: parquet.hpp:1934

cudf::io::chunked_parquet_writer::write
chunked_parquet_writer & write(table_view const &table, std::vector< partition_info > const &partitions={})
Writes table to output.

cudf::io::chunked_parquet_writer::chunked_parquet_writer
chunked_parquet_writer()
Default constructor, this should never be used. This is added just to satisfy cython....

cudf::io::parquet_reader_options_builder
Builds parquet_reader_options to use for read_parquet().
Definition: parquet.hpp:550

cudf::io::parquet_reader_options_builder::num_bytes
parquet_reader_options_builder & num_bytes(size_t val)
Sets number of bytes after skipping to end reading row groups at.
Definition: parquet.hpp:748

cudf::io::parquet_reader_options_builder::use_arrow_schema
parquet_reader_options_builder & use_arrow_schema(bool val)
Sets to enable/disable use of arrow schema to read.
Definition: parquet.hpp:657

cudf::io::parquet_reader_options_builder::parquet_reader_options_builder
parquet_reader_options_builder(source_info src)
Constructor from source info.
Definition: parquet.hpp:567

cudf::io::parquet_reader_options_builder::decimal_width
parquet_reader_options_builder & decimal_width(type_id width)
Sets the decimal width used to cast decimal columns.
Definition: parquet.hpp:773

cudf::io::parquet_reader_options_builder::skip_rows
parquet_reader_options_builder & skip_rows(int64_t val)
Sets number of rows to skip.
Definition: parquet.hpp:709

cudf::io::parquet_reader_options_builder::allow_mismatched_pq_schemas
parquet_reader_options_builder & allow_mismatched_pq_schemas(bool val)
Sets to enable/disable reading of matching projected and filter columns from mismatched Parquet sourc...
Definition: parquet.hpp:672

cudf::io::parquet_reader_options_builder::column_names
parquet_reader_options_builder & column_names(std::vector< std::string > column_names)
Sets names of the columns to be read.
Definition: parquet.hpp:589

cudf::io::parquet_reader_options_builder::ignore_missing_columns
parquet_reader_options_builder & ignore_missing_columns(bool val)
Sets to enable/disable ignoring of non-existent projected columns while reading.
Definition: parquet.hpp:685

cudf::io::parquet_reader_options_builder::skip_bytes
parquet_reader_options_builder & skip_bytes(size_t val)
Sets bytes to skip before starting reading row groups.
Definition: parquet.hpp:736

cudf::io::parquet_reader_options_builder::timestamp_type
parquet_reader_options_builder & timestamp_type(data_type type)
timestamp_type used to cast timestamp columns.
Definition: parquet.hpp:760

cudf::io::parquet_reader_options_builder::use_pandas_metadata
parquet_reader_options_builder & use_pandas_metadata(bool val)
Sets to enable/disable use of pandas metadata to read.
Definition: parquet.hpp:645

cudf::io::parquet_reader_options_builder::parquet_reader_options_builder
parquet_reader_options_builder()=default
Default constructor.

cudf::io::parquet_reader_options_builder::num_rows
parquet_reader_options_builder & num_rows(int64_t val)
Sets number of rows to read.
Definition: parquet.hpp:724

cudf::io::parquet_reader_options_builder::row_groups
parquet_reader_options_builder & row_groups(std::vector< std::vector< size_type >> row_groups)
Specifies which row groups to read from each input source.
Definition: parquet.hpp:611

cudf::io::parquet_reader_options_builder::set_column_schema
parquet_reader_options_builder & set_column_schema(std::vector< reader_column_schema > val)
Sets reader metadata.
Definition: parquet.hpp:697

cudf::io::parquet_reader_options_builder::columns
parquet_reader_options_builder & columns(std::vector< std::string > column_names)
Sets names of the columns to be read.
Definition: parquet.hpp:577

cudf::io::parquet_reader_options_builder::column_indices
parquet_reader_options_builder & column_indices(std::vector< cudf::size_type > col_indices)
Sets the indices of top-level columns to be read from all input sources.
Definition: parquet.hpp:601

cudf::io::parquet_reader_options_builder::build
parquet_reader_options && build()
move parquet_reader_options member once it's built.
Definition: parquet.hpp:818

cudf::io::parquet_reader_options_builder::filter
parquet_reader_options_builder & filter(ast::expression const &filter)
Sets AST based filter for predicate pushdown.
Definition: parquet.hpp:621

cudf::io::parquet_reader_options_builder::case_sensitive_names
parquet_reader_options_builder & case_sensitive_names(bool val)
Sets whether column name matching is case sensitive.
Definition: parquet.hpp:800

cudf::io::parquet_reader_options_builder::use_jit_filter
parquet_reader_options_builder & use_jit_filter(bool use_jit_filter)
Enable/disable use of JIT for filter step.
Definition: parquet.hpp:785

cudf::io::parquet_reader_options_builder::convert_strings_to_categories
parquet_reader_options_builder & convert_strings_to_categories(bool val)
Sets enable/disable conversion of strings to categories.
Definition: parquet.hpp:633

cudf::io::parquet_reader_options
Settings for read_parquet().
Definition: parquet.hpp:66

cudf::io::parquet_reader_options::get_timestamp_type
data_type get_timestamp_type() const
Returns timestamp type used to cast timestamp columns.
Definition: parquet.hpp:275

cudf::io::parquet_reader_options::parquet_reader_options
parquet_reader_options()=default
Default constructor.

cudf::io::parquet_reader_options::enable_allow_mismatched_pq_schemas
void enable_allow_mismatched_pq_schemas(bool val)
Sets to enable/disable reading of matching projected and filter columns from mismatched Parquet sourc...
Definition: parquet.hpp:469

cudf::io::parquet_reader_options::set_skip_rows
void set_skip_rows(int64_t val)
Sets number of rows to skip.

cudf::io::parquet_reader_options::is_enabled_use_jit_filter
bool is_enabled_use_jit_filter() const
Returns whether to use JIT compilation for filtering.
Definition: parquet.hpp:289

cudf::io::parquet_reader_options::get_skip_bytes
size_t get_skip_bytes() const
Returns bytes to skip before starting reading row groups.
Definition: parquet.hpp:222

cudf::io::parquet_reader_options::is_enabled_ignore_missing_columns
bool is_enabled_ignore_missing_columns() const
Returns boolean depending on whether to ignore non-existent projected columns while reading.
Definition: parquet.hpp:189

cudf::io::parquet_reader_options::builder
static parquet_reader_options_builder builder(source_info src=source_info{})
Creates a parquet_reader_options_builder to build parquet_reader_options. By default,...

cudf::io::parquet_reader_options::enable_convert_strings_to_categories
void enable_convert_strings_to_categories(bool val)
Sets to enable/disable conversion of strings to categories.
Definition: parquet.hpp:446

cudf::io::parquet_reader_options::get_column_schema
std::optional< std::vector< reader_column_schema > > get_column_schema() const
Returns optional tree of metadata.
Definition: parquet.hpp:196

cudf::io::parquet_reader_options::set_skip_bytes
void set_skip_bytes(size_t val)
Sets bytes to skip before starting reading row groups.

cudf::io::parquet_reader_options::get_decimal_width
type_id get_decimal_width() const
Returns decimal width used to cast decimal columns.
Definition: parquet.hpp:282

cudf::io::parquet_reader_options::set_column_indices
void set_column_indices(std::vector< cudf::size_type > col_indices)
Sets the indices of top-level columns to be read from all input sources.
Definition: parquet.hpp:374

cudf::io::parquet_reader_options::get_source
source_info const  & get_source() const
Returns source info.
Definition: parquet.hpp:144

cudf::io::parquet_reader_options::get_column_indices
auto const  & get_column_indices() const
Returns indices of top-level columns to be read, if set.
Definition: parquet.hpp:254

cudf::io::parquet_reader_options::get_row_groups
auto const  & get_row_groups() const
Returns list of individual row groups to be read.
Definition: parquet.hpp:261

cudf::io::parquet_reader_options::set_decimal_width
void set_decimal_width(type_id width)
Sets decimal width used to cast decimal columns.
Definition: parquet.hpp:534

cudf::io::parquet_reader_options::set_row_groups
void set_row_groups(std::vector< std::vector< size_type >> row_groups)
Specifies which row groups to read from each input source.

cudf::io::parquet_reader_options::enable_ignore_missing_columns
void enable_ignore_missing_columns(bool val)
Sets to enable/disable ignoring of non-existent projected columns while reading.
Definition: parquet.hpp:477

cudf::io::parquet_reader_options::set_source
void set_source(source_info src)
Set a new source location.
Definition: parquet.hpp:306

cudf::io::parquet_reader_options::get_columns
auto const  & get_columns() const
Returns names of column to be read, if set.
Definition: parquet.hpp:237

cudf::io::parquet_reader_options::set_timestamp_type
void set_timestamp_type(data_type type)
Sets timestamp_type used to cast timestamp columns.
Definition: parquet.hpp:526

cudf::io::parquet_reader_options::set_column_names
void set_column_names(std::vector< std::string > column_names)
Sets the names of columns to be read from all input sources.
Definition: parquet.hpp:356

cudf::io::parquet_reader_options::get_num_rows
std::optional< int64_t > const  & get_num_rows() const
Returns number of rows to read.
Definition: parquet.hpp:214

cudf::io::parquet_reader_options::is_enabled_convert_strings_to_categories
bool is_enabled_convert_strings_to_categories() const
Returns boolean depending on whether strings should be converted to categories.
Definition: parquet.hpp:151

cudf::io::parquet_reader_options::set_columns
void set_columns(std::vector< std::string > column_names)
Sets the names of columns to be read from all input sources.
Definition: parquet.hpp:330

cudf::io::parquet_reader_options::set_num_rows
void set_num_rows(int64_t val)
Sets number of rows to read.

cudf::io::parquet_reader_options::enable_case_sensitive_names
void enable_case_sensitive_names(bool val)
Sets whether column name matching is case sensitive.
Definition: parquet.hpp:544

cudf::io::parquet_reader_options::set_num_bytes
void set_num_bytes(size_t val)
Sets number of bytes after skipping to end reading row groups at.

cudf::io::parquet_reader_options::enable_use_pandas_metadata
void enable_use_pandas_metadata(bool val)
Sets to enable/disable use of pandas metadata to read.
Definition: parquet.hpp:453

cudf::io::parquet_reader_options::enable_use_arrow_schema
void enable_use_arrow_schema(bool val)
Sets to enable/disable use of arrow schema to read.
Definition: parquet.hpp:460

cudf::io::parquet_reader_options::is_enabled_use_pandas_metadata
bool is_enabled_use_pandas_metadata() const
Returns boolean depending on whether to use pandas metadata while reading.
Definition: parquet.hpp:161

cudf::io::parquet_reader_options::is_enabled_allow_mismatched_pq_schemas
bool is_enabled_allow_mismatched_pq_schemas() const
Returns boolean depending on whether to read matching projected and filter columns from mismatched Pa...
Definition: parquet.hpp:177

cudf::io::parquet_reader_options::set_column_schema
void set_column_schema(std::vector< reader_column_schema > val)
Sets reader column schema.
Definition: parquet.hpp:485

cudf::io::parquet_reader_options::is_enabled_use_arrow_schema
bool is_enabled_use_arrow_schema() const
Returns boolean depending on whether to use arrow schema while reading.
Definition: parquet.hpp:168

cudf::io::parquet_reader_options::set_filter
void set_filter(ast::expression const &filter)
Sets AST based filter for predicate pushdown.
Definition: parquet.hpp:439

cudf::io::parquet_reader_options::get_filter
auto const  & get_filter() const
Returns AST based filter for predicate pushdown.
Definition: parquet.hpp:268

cudf::io::parquet_reader_options::get_num_bytes
std::optional< size_t > const  & get_num_bytes() const
Returns number of bytes after skipping to end reading row groups at.
Definition: parquet.hpp:230

cudf::io::parquet_reader_options::get_column_names
auto const  & get_column_names() const
Returns names of column to be read, if set.
Definition: parquet.hpp:247

cudf::io::parquet_reader_options::get_skip_rows
int64_t get_skip_rows() const
Returns number of rows to skip from the start.
Definition: parquet.hpp:206

cudf::io::parquet_reader_options::is_enabled_case_sensitive_names
bool is_enabled_case_sensitive_names() const
Returns whether column name matching is case sensitive.
Definition: parquet.hpp:299

cudf::io::parquet_writer_options_base
Base settings for write_parquet() and chunked_parquet_writer.
Definition: parquet.hpp:1048

cudf::io::parquet_writer_options_base::enable_utc_timestamps
void enable_utc_timestamps(bool val)
Sets preference for writing timestamps as UTC. Write timestamps as UTC if set to true.

cudf::io::parquet_writer_options_base::enable_write_v2_headers
void enable_write_v2_headers(bool val)
Sets preference for V2 page headers. Write V2 page headers if set to true.

cudf::io::parquet_writer_options_base::get_sorting_columns
auto const  & get_sorting_columns() const
Returns the sorting_columns.
Definition: parquet.hpp:1270

cudf::io::parquet_writer_options_base::get_row_group_size_bytes
auto get_row_group_size_bytes() const
Returns maximum row group size, in bytes.
Definition: parquet.hpp:1173

cudf::io::parquet_writer_options_base::is_enabled_int96_timestamps
bool is_enabled_int96_timestamps() const
Returns true if timestamps will be written as INT96.
Definition: parquet.hpp:1152

cudf::io::parquet_writer_options_base::set_metadata
void set_metadata(table_input_metadata metadata)
Sets metadata.

cudf::io::parquet_writer_options_base::set_row_group_size_rows
void set_row_group_size_rows(size_type size_rows)
Sets the maximum row group size, in rows.

cudf::io::parquet_writer_options_base::parquet_writer_options_base
parquet_writer_options_base(sink_info sink)
Constructor from sink.
Definition: parquet.hpp:1098

cudf::io::parquet_writer_options_base::set_stats_level
void set_stats_level(statistics_freq sf)
Sets the level of statistics.

cudf::io::parquet_writer_options_base::get_row_group_size_rows
auto get_row_group_size_rows() const
Returns maximum row group size, in rows.
Definition: parquet.hpp:1180

cudf::io::parquet_writer_options_base::parquet_writer_options_base
parquet_writer_options_base()=default
Default constructor.

cudf::io::parquet_writer_options_base::set_max_page_size_bytes
void set_max_page_size_bytes(size_t size_bytes)
Sets the maximum uncompressed page size, in bytes.

cudf::io::parquet_writer_options_base::set_sorting_columns
void set_sorting_columns(std::vector< sorting_column > sorting_columns)
Sets sorting columns.

cudf::io::parquet_writer_options_base::is_enabled_write_arrow_schema
auto is_enabled_write_arrow_schema() const
Returns true if arrow schema will be written.
Definition: parquet.hpp:1166

cudf::io::parquet_writer_options_base::is_enabled_write_v2_headers
auto is_enabled_write_v2_headers() const
Returns true if V2 page headers should be written.
Definition: parquet.hpp:1252

cudf::io::parquet_writer_options_base::set_dictionary_policy
void set_dictionary_policy(dictionary_policy policy)
Sets the policy for dictionary use.

cudf::io::parquet_writer_options_base::get_max_page_size_bytes
auto get_max_page_size_bytes() const
Returns the maximum uncompressed page size, in bytes.
Definition: parquet.hpp:1189

cudf::io::parquet_writer_options_base::set_max_dictionary_size
void set_max_dictionary_size(size_t size_bytes)
Sets the maximum dictionary size, in bytes.

cudf::io::parquet_writer_options_base::get_compression
compression_type get_compression() const
Returns compression format used.
Definition: parquet.hpp:1120

cudf::io::parquet_writer_options_base::get_max_dictionary_size
auto get_max_dictionary_size() const
Returns maximum dictionary size, in bytes.
Definition: parquet.hpp:1228

cudf::io::parquet_writer_options_base::set_compression
void set_compression(compression_type compression)
Sets compression type.

cudf::io::parquet_writer_options_base::get_dictionary_policy
dictionary_policy get_dictionary_policy() const
Returns policy for dictionary use.
Definition: parquet.hpp:1221

cudf::io::parquet_writer_options_base::set_compression_statistics
void set_compression_statistics(std::shared_ptr< writer_compression_statistics > comp_stats)
Sets the pointer to the output compression statistics.

cudf::io::parquet_writer_options_base::get_compression_statistics
std::shared_ptr< writer_compression_statistics > get_compression_statistics() const
Returns a shared pointer to the user-provided compression statistics.
Definition: parquet.hpp:1242

cudf::io::parquet_writer_options_base::set_max_page_size_rows
void set_max_page_size_rows(size_type size_rows)
Sets the maximum page size, in rows.

cudf::io::parquet_writer_options_base::enable_page_level_compression
void enable_page_level_compression(bool val)
Sets preference for per-page compression decision in V2 pages.

cudf::io::parquet_writer_options_base::get_max_page_fragment_size
auto get_max_page_fragment_size() const
Returns maximum page fragment size, in rows.
Definition: parquet.hpp:1235

cudf::io::parquet_writer_options_base::set_key_value_metadata
void set_key_value_metadata(std::vector< std::map< std::string, std::string >> metadata)
Sets metadata.

cudf::io::parquet_writer_options_base::set_max_page_fragment_size
void set_max_page_fragment_size(size_type size_rows)
Sets the maximum page fragment size, in rows.

cudf::io::parquet_writer_options_base::enable_write_arrow_schema
void enable_write_arrow_schema(bool val)
Sets preference for writing arrow schema. Write arrow schema if set to true.

cudf::io::parquet_writer_options_base::is_enabled_utc_timestamps
auto is_enabled_utc_timestamps() const
Returns true if timestamps will be written as UTC.
Definition: parquet.hpp:1159

cudf::io::parquet_writer_options_base::set_row_group_size_bytes
void set_row_group_size_bytes(size_t size_bytes)
Sets the maximum row group size, in bytes.

cudf::io::parquet_writer_options_base::is_enabled_page_level_compression
auto is_enabled_page_level_compression() const
Returns true if per-page compression is enabled for V2 pages.
Definition: parquet.hpp:1263

cudf::io::parquet_writer_options_base::enable_int96_timestamps
void enable_int96_timestamps(bool req)
Sets timestamp writing preferences. INT96 timestamps will be written if true and TIMESTAMP_MICROS wil...

cudf::io::parquet_writer_options_base::get_stats_level
statistics_freq get_stats_level() const
Returns level of statistics requested in output file.
Definition: parquet.hpp:1127

cudf::io::parquet_writer_options_base::get_key_value_metadata
std::vector< std::map< std::string, std::string > > const  & get_key_value_metadata() const
Returns Key-Value footer metadata information.
Definition: parquet.hpp:1141

cudf::io::parquet_writer_options_base::get_metadata
auto const  & get_metadata() const
Returns associated metadata.
Definition: parquet.hpp:1134

cudf::io::parquet_writer_options_base::get_max_page_size_rows
auto get_max_page_size_rows() const
Returns maximum page size, in rows.
Definition: parquet.hpp:1201

cudf::io::parquet_writer_options_base::get_column_index_truncate_length
auto get_column_index_truncate_length() const
Returns maximum length of min or max values in column index, in bytes.
Definition: parquet.hpp:1211

cudf::io::parquet_writer_options_base::set_column_index_truncate_length
void set_column_index_truncate_length(int32_t size_bytes)
Sets the maximum length of min or max values in column index, in bytes.

cudf::io::parquet_writer_options_base::get_sink
sink_info const  & get_sink() const
Returns sink info.
Definition: parquet.hpp:1113

cudf::io::parquet_writer_options_builder_base
Base class for Parquet options builders.
Definition: parquet.hpp:1414

cudf::io::parquet_writer_options_builder_base::compression
BuilderT & compression(compression_type compression)
Sets compression type.

cudf::io::parquet_writer_options_builder_base::key_value_metadata
BuilderT & key_value_metadata(std::vector< std::map< std::string, std::string >> metadata)
Sets Key-Value footer metadata.

cudf::io::parquet_writer_options_builder_base::get_options
OptionsT & get_options()
Return reference to the options object being built.
Definition: parquet.hpp:1423

cudf::io::parquet_writer_options_builder_base::utc_timestamps
BuilderT & utc_timestamps(bool enabled)
Set to true if timestamps are to be written as UTC.

cudf::io::parquet_writer_options_builder_base::max_dictionary_size
BuilderT & max_dictionary_size(size_t val)
Sets the maximum dictionary size, in bytes.

cudf::io::parquet_writer_options_builder_base::max_page_size_bytes
BuilderT & max_page_size_bytes(size_t val)
Sets the maximum uncompressed page size, in bytes.

cudf::io::parquet_writer_options_builder_base::build
OptionsT && build()
move options member once it's built.

cudf::io::parquet_writer_options_builder_base::stats_level
BuilderT & stats_level(statistics_freq sf)
Sets the level of statistics.

cudf::io::parquet_writer_options_builder_base::column_index_truncate_length
BuilderT & column_index_truncate_length(int32_t val)
Sets the desired maximum size in bytes for min and max values in the column index.

cudf::io::parquet_writer_options_builder_base::compression_statistics
BuilderT & compression_statistics(std::shared_ptr< writer_compression_statistics > const &comp_stats)
Sets the pointer to the output compression statistics.

cudf::io::parquet_writer_options_builder_base::metadata
BuilderT & metadata(table_input_metadata metadata)
Sets metadata.

cudf::io::parquet_writer_options_builder_base::dictionary_policy
BuilderT & dictionary_policy(enum dictionary_policy val)
Sets the policy for dictionary use.

cudf::io::parquet_writer_options_builder_base::parquet_writer_options_builder_base
parquet_writer_options_builder_base(OptionsT options)
Constructor from options.

cudf::io::parquet_writer_options_builder_base::page_level_compression
BuilderT & page_level_compression(bool enabled)
Set to true to enable per-page compression decisions for V2 pages.

cudf::io::parquet_writer_options_builder_base::int96_timestamps
BuilderT & int96_timestamps(bool enabled)
Sets whether int96 timestamps are written or not.

cudf::io::parquet_writer_options_builder_base::row_group_size_bytes
BuilderT & row_group_size_bytes(size_t val)
Sets the maximum row group size, in bytes.

cudf::io::parquet_writer_options_builder_base::sorting_columns
BuilderT & sorting_columns(std::vector< sorting_column > sorting_columns)
Sets column sorting metadata.

cudf::io::parquet_writer_options_builder_base::write_arrow_schema
BuilderT & write_arrow_schema(bool enabled)
Set to true if arrow schema is to be written.

cudf::io::parquet_writer_options_builder_base::parquet_writer_options_builder_base
parquet_writer_options_builder_base()=default
Default constructor.

cudf::io::parquet_writer_options_builder_base::write_v2_headers
BuilderT & write_v2_headers(bool enabled)
Set to true if V2 page headers are to be written.

cudf::io::parquet_writer_options_builder_base::max_page_fragment_size
BuilderT & max_page_fragment_size(size_type val)
Sets the maximum page fragment size, in rows.

cudf::io::parquet_writer_options_builder_base::row_group_size_rows
BuilderT & row_group_size_rows(size_type val)
Sets the maximum number of rows in output row groups.

cudf::io::parquet_writer_options_builder_base::max_page_size_rows
BuilderT & max_page_size_rows(size_type val)
Sets the maximum page size, in rows. Counts only top-level rows, ignoring any nesting....

cudf::io::parquet_writer_options_builder
Class to build parquet_writer_options.
Definition: parquet.hpp:1738

cudf::io::parquet_writer_options_builder::parquet_writer_options_builder
parquet_writer_options_builder(sink_info const &sink, table_view const &table)
Constructor from sink and table.

cudf::io::parquet_writer_options_builder::parquet_writer_options_builder
parquet_writer_options_builder()=default
Default constructor.

cudf::io::parquet_writer_options_builder::partitions
parquet_writer_options_builder & partitions(std::vector< partition_info > partitions)
Sets partitions in parquet_writer_options.

cudf::io::parquet_writer_options_builder::column_chunks_file_paths
parquet_writer_options_builder & column_chunks_file_paths(std::vector< std::string > file_paths)
Sets column chunks file path to be set in the raw output metadata.

cudf::io::parquet_writer_options
Settings for write_parquet().
Definition: parquet.hpp:1649

cudf::io::parquet_writer_options::set_partitions
void set_partitions(std::vector< partition_info > partitions)
Sets partitions.

cudf::io::parquet_writer_options::builder
static parquet_writer_options_builder builder(sink_info const &sink, table_view const &table)
Create builder to create parquet_writer_options.

cudf::io::parquet_writer_options::parquet_writer_options
parquet_writer_options()=default
Default constructor.

cudf::io::parquet_writer_options::get_column_chunks_file_paths
std::vector< std::string > const  & get_column_chunks_file_paths() const
Returns Column chunks file paths to be set in the raw output metadata.
Definition: parquet.hpp:1711

cudf::io::parquet_writer_options::get_table
table_view get_table() const
Returns table_view.
Definition: parquet.hpp:1697

cudf::io::parquet_writer_options::set_column_chunks_file_paths
void set_column_chunks_file_paths(std::vector< std::string > file_paths)
Sets column chunks file path to be set in the raw output metadata.

cudf::io::parquet_writer_options::builder
static parquet_writer_options_builder builder()
Create builder to create parquet_writer_options.

cudf::io::parquet_writer_options::get_partitions
std::vector< partition_info > const  & get_partitions() const
Returns partitions.
Definition: parquet.hpp:1704

cudf::io::table_input_metadata
Metadata for a table.
Definition: io/types.hpp:893

cudf::table_view
A set of cudf::column_view's of the same size.
Definition: table_view.hpp:189

cudf::table
A set of cudf::column's of the same size.
Definition: table.hpp:29

rmm::cuda_stream_view

expressions.hpp

cudf::get_default_stream
rmm::cuda_stream_view const get_default_stream()
Get the current default stream.

cudf::io::read_parquet
table_with_metadata read_parquet(std::vector< std::unique_ptr< cudf::io::datasource >> &&sources, std::vector< parquet::FileMetaData > &&parquet_metadatas, parquet_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
Reads a Parquet dataset into a set of columns using pre-existing Parquet datasources and file metadat...

cudf::io::default_row_group_size_rows
constexpr size_type default_row_group_size_rows
1 million rows per row group
Definition: parquet.hpp:32

cudf::io::default_column_index_truncate_length
constexpr int32_t default_column_index_truncate_length
truncate to 64 bytes
Definition: parquet.hpp:35

cudf::io::default_row_group_size_bytes
constexpr size_t default_row_group_size_bytes
Infinite bytes per row group.
Definition: parquet.hpp:30

cudf::io::is_supported_write_parquet
bool is_supported_write_parquet(compression_type compression)
Check if the compression type is supported for writing Parquet files.

cudf::io::default_max_page_fragment_size
constexpr size_type default_max_page_fragment_size
5000 rows per page fragment
Definition: parquet.hpp:37

cudf::io::default_max_dictionary_size
constexpr size_t default_max_dictionary_size
1MB dictionary size
Definition: parquet.hpp:36

cudf::io::is_supported_read_parquet
bool is_supported_read_parquet(compression_type compression)
Check if the compression type is supported for reading Parquet files.

cudf::io::default_max_page_size_bytes
constexpr size_t default_max_page_size_bytes
512KB per page
Definition: parquet.hpp:33

cudf::io::default_max_page_size_rows
constexpr size_type default_max_page_size_rows
20k rows per page
Definition: parquet.hpp:34

cudf::io::statistics_freq
statistics_freq
Column statistics granularity type for parquet/orc writers.
Definition: io/types.hpp:85

cudf::io::dictionary_policy
dictionary_policy
Control use of dictionary encoding for parquet writer.
Definition: io/types.hpp:214

cudf::io::compression_type
compression_type
Compression algorithms.
Definition: io/types.hpp:46

cudf::io::STATISTICS_ROWGROUP
@ STATISTICS_ROWGROUP
Per-Rowgroup column statistics.
Definition: io/types.hpp:87

cudf::io::ADAPTIVE
@ ADAPTIVE
Use dictionary when it will not impact compression.
Definition: io/types.hpp:216

cudf::io::merge_row_group_metadata
std::unique_ptr< std::vector< uint8_t > > merge_row_group_metadata(std::vector< std::unique_ptr< std::vector< uint8_t >>> const &metadata_list)
Merges multiple raw metadata blobs that were previously created by write_parquet into a single metada...

cudf::io::write_parquet
std::unique_ptr< std::vector< uint8_t > > write_parquet(parquet_writer_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream())
Writes a set of columns to parquet format.

cudf::get_current_device_resource_ref
rmm::device_async_resource_ref get_current_device_resource_ref()
Get the current device memory resource reference.
Definition: memory_resource.hpp:27

rmm::device_async_resource_ref
cuda::mr::resource_ref< cuda::mr::device_accessible > device_async_resource_ref

cudf::filter
std::vector< std::unique_ptr< column > > filter(std::vector< column_view > const &predicate_columns, std::string const &predicate_udf, std::vector< column_view > const &filter_columns, bool is_ptx, std::optional< void * > user_data=std::nullopt, null_aware is_null_aware=null_aware::NO, output_nullability predicate_nullability=output_nullability::PRESERVE, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
Creates a new column by applying a filter function against every element of the input columns.

CUDF_EXPECTS
#define CUDF_EXPECTS(...)
Macro for checking (pre-)conditions that throws an exception when a condition is violated.
Definition: error.hpp:145

cudf::size_type
int32_t size_type
Row index type for columns and tables.
Definition: types.hpp:85

cudf::type_id
type_id
Identifies a column's logical element type.
Definition: types.hpp:193

types.hpp
cuDF-IO API type definitions

memory_resource.hpp

cudf
cuDF interfaces
Definition: host_udf.hpp:26

cudf::ast::expression
A generic expression that can be evaluated to return a value.
Definition: expressions.hpp:62

cudf::io::sink_info
Destination information for write interfaces.
Definition: io/types.hpp:471

cudf::io::sorting_column
Struct used to describe column sorting metadata.
Definition: parquet.hpp:1039

cudf::io::source_info
Source information for read interfaces.
Definition: io/types.hpp:316

cudf::io::table_with_metadata
Table with table metadata used by io readers to return the metadata by value.
Definition: io/types.hpp:292

table_view.hpp
Class definitions for (mutable)_table_view

types.hpp
Type declarations for libcudf.