tessl/pypi-zstandard

Zstandard bindings for Python providing high-performance compression and decompression operations

Overview

Eval results

Files

Dictionary Compression

Name: tessl/pypi-zstandard
Author: tessl

Training and using custom dictionaries to achieve better compression ratios on similar data sets by learning common patterns and structures.

Capabilities

Dictionary Training

Create custom compression dictionaries from sample data to improve compression ratios for similar data.

def train_dictionary(
    dict_size: int,
    samples: list[bytes],
    k: int = 0,
    d: int = 8,
    f: int = 20,
    split_point: float = 1.0,
    accel: int = 1,
    notifications: int = 0,
    dict_id: int = 0,
    level: int = 3,
    steps: int = 4,
    threads: int = 0
) -> ZstdCompressionDict:
    """
    Train a compression dictionary from sample data.

    Parameters:
    - dict_size: int, target dictionary size in bytes
    - samples: list[bytes], sample data for training
    - k: int, segment size parameter (0 = auto)
    - d: int, dmer size parameter (6-16, default 8)
    - f: int, log frequency parameter (default 20)
    - split_point: float, split point for training (0.0-1.0)
    - accel: int, acceleration parameter (1-10)
    - notifications: int, notification level (0=none, 1=basic, 2=verbose)
    - dict_id: int, dictionary ID (0 = auto-generate)
    - level: int, compression level for dictionary optimization
    - steps: int, training steps (1-4)
    - threads: int, number of threads (0 = auto)

    Returns:
    ZstdCompressionDict: Trained compression dictionary
    """

Usage Example:

import zstandard as zstd

# Prepare sample data for training
samples = [
    b'{"name": "John", "age": 30, "city": "New York"}',
    b'{"name": "Jane", "age": 25, "city": "San Francisco"}',
    b'{"name": "Bob", "age": 35, "city": "Chicago"}',
    b'{"name": "Alice", "age": 28, "city": "Boston"}',
    # ... more similar JSON documents
]

# Train dictionary
dictionary = zstd.train_dictionary(
    dict_size=8192,  # 8KB dictionary
    samples=samples,
    level=5,
    threads=4
)

print(f"Dictionary size: {len(dictionary)} bytes")
print(f"Dictionary ID: {dictionary.dict_id()}")

Dictionary Object

Container for compression dictionaries with metadata and optimization capabilities.

class ZstdCompressionDict:
    def __init__(
        self,
        data: bytes,
        dict_type: int = DICT_TYPE_AUTO,
        k: int = 0,
        d: int = 0
    ):
        """
        Create a compression dictionary from raw dictionary data.

        Parameters:
        - data: bytes, raw dictionary data
        - dict_type: int, dictionary type (DICT_TYPE_AUTO, DICT_TYPE_RAWCONTENT, DICT_TYPE_FULLDICT)
        - k: int, segment size parameter
        - d: int, dmer size parameter
        """

    def __len__(self) -> int:
        """Get dictionary size in bytes."""

    def dict_id(self) -> int:
        """
        Get dictionary ID.

        Returns:
        int: Dictionary identifier
        """

    def as_bytes(self) -> bytes:
        """
        Get dictionary data as bytes.

        Returns:
        bytes: Raw dictionary data
        """

    def precompute_compress(
        self,
        level: int = 3,
        compression_params: ZstdCompressionParameters = None
    ):
        """
        Precompute compression tables for better performance.

        Parameters:
        - level: int, compression level to optimize for
        - compression_params: ZstdCompressionParameters, detailed parameters
        """

    # Properties
    k: int  # Segment size parameter
    d: int  # Dmer size parameter

Usage Example:

import zstandard as zstd

# Load dictionary from file
with open('dictionary.zdict', 'rb') as f:
    dict_data = f.read()

# Create dictionary object
dictionary = zstd.ZstdCompressionDict(dict_data)

# Optimize for specific compression level
dictionary.precompute_compress(level=9)

# Get dictionary information
print(f"Dictionary size: {len(dictionary)} bytes")
print(f"Dictionary ID: {dictionary.dict_id()}")
print(f"Parameters: k={dictionary.k}, d={dictionary.d}")

# Save optimized dictionary
optimized_data = dictionary.as_bytes()
with open('optimized_dictionary.zdict', 'wb') as f:
    f.write(optimized_data)