tessl/pypi-dagster

A cloud-native data pipeline orchestrator for the whole development lifecycle, with integrated lineage and observability, a declarative programming model, and best-in-class testability.

—

Pending

Overview

Eval results

Files

Error Handling

Name: tessl/pypi-dagster
Author: tessl

This document covers Dagster's comprehensive error handling system, including the error hierarchy, failure events, retry policies, and best practices for robust pipeline development. Dagster provides structured error handling with rich failure information and configurable recovery strategies.

Error Hierarchy

Dagster provides a structured hierarchy of exceptions for different failure scenarios, enabling precise error handling and debugging.

Base Errors

`DagsterError` { .api }

Module: dagster_shared.error
Type: Exception base class

Base class for all Dagster-specific errors with structured error information.

from dagster import DagsterError, op, job, asset
import pandas as pd

class CustomDataError(DagsterError):
    """Custom error for data quality issues."""
    
    def __init__(self, message: str, data_info: dict = None):
        super().__init__(message)
        self.data_info = data_info or {}

@op
def validate_data_quality(df: pd.DataFrame) -> pd.DataFrame:
    """Op that validates data quality and raises custom errors."""
    
    # Check for null values
    null_count = df.isnull().sum().sum()
    if null_count > 0:
        raise CustomDataError(
            f"Data quality check failed: {null_count} null values found",
            data_info={
                "null_count": null_count,
                "total_records": len(df),
                "null_percentage": (null_count / (len(df) * len(df.columns))) * 100,
                "affected_columns": df.columns[df.isnull().any()].tolist()
            }
        )
    
    # Check for duplicates
    duplicate_count = df.duplicated().sum()
    if duplicate_count > 0:
        raise CustomDataError(
            f"Data quality check failed: {duplicate_count} duplicate records found",
            data_info={
                "duplicate_count": duplicate_count,
                "total_records": len(df),
                "duplicate_percentage": (duplicate_count / len(df)) * 100
            }
        )
    
    return df

@asset
def validated_customer_data(raw_customer_data: pd.DataFrame) -> pd.DataFrame:
    """Asset with comprehensive error handling."""
    
    try:
        # Validate data quality
        validated_data = validate_data_quality(raw_customer_data)
        
        # Additional business rule validation
        if len(validated_data) == 0:
            raise CustomDataError(
                "No valid customer records found after validation",
                data_info={"original_count": len(raw_customer_data)}
            )
        
        # Check required columns
        required_columns = ["customer_id", "email", "created_at"]
        missing_columns = set(required_columns) - set(validated_data.columns)
        if missing_columns:
            raise CustomDataError(
                f"Required columns missing: {missing_columns}",
                data_info={
                    "missing_columns": list(missing_columns),
                    "available_columns": list(validated_data.columns)
                }
            )
        
        return validated_data
        
    except CustomDataError as e:
        # Log detailed error information
        context.log.error(f"Data validation failed: {str(e)}")
        context.log.error(f"Error details: {e.data_info}")
        
        # Re-raise to fail the asset materialization
        raise
        
    except Exception as e:
        # Handle unexpected errors
        raise DagsterError(
            f"Unexpected error during customer data validation: {str(e)}"
        ) from e