Core Concepts
Orion allows you to build declarative and type-safe data pipelines, where each step (node) can consume and produce data flexibly, with support for multiple storage backends through connectors.
Key Features
- Clean Architecture: Clear separation of responsibilities in layers
- Type Safety: Mandatory type hints and automatic validation
- Observability: Structured and contextual logging
- Extensibility: Pluggable connectors for different data sources
- Idempotency: Deterministic and reproducible executions
- Declarative: Pipelines defined simply and readably
Data Flow
Orion organizes pipelines through a PipelineBuilder that orchestrates pure functions (nodes) executed with an OrionContext. The context provides catalogs, connectors and logging.
CLI → Catalog → Context → Pipeline → Nodes → Connectors → Storage
Main Components
Pipeline
Orchestrates the sequence of nodes and manages execution order.
Node
Encapsulates a transformation. Pure functions that receive context and inputs, returning outputs.
Catalog
Maintains the mapping of logical dataset names to physical connectors.
Connector
Implements specific persistence for different storage backends (CSV, Databricks, etc.).
Context
OrionContext centralizes catalog access, logging and configuration.
Conceitos Fundamentais
O Orion permite construir pipelines de dados declarativos e type-safe, onde cada etapa (node) pode consumir e produzir dados de forma flexível, com suporte a múltiplos backends de armazenamento através de conectores.
Características Principais
- Clean Architecture: Separação clara de responsabilidades em camadas
- Type Safety: Type hints obrigatórios e validação automática
- Observabilidade: Logging estruturado e contextual
- Extensibilidade: Conectores plugáveis para diferentes fontes de dados
- Idempotência: Execuções determinísticas e reproduzíveis
- Declarativo: Pipelines definidas de forma simples e legível
Fluxo de Dados
O Orion organiza pipelines por meio de um PipelineBuilder que orquestra funções puras (nodes) executadas com um OrionContext. O contexto entrega catálogos, conectores e logging.
CLI → Catalog → Context → Pipeline → Nodes → Connectors → Storage
Componentes Principais
Pipeline
Orquestra a sequência de nodes e gerencia a ordem de execução.
Node
Encapsula uma transformação. Funções puras que recebem contexto e inputs, retornando outputs.
Catalog
Mantém o mapeamento de nomes lógicos de datasets para conectores físicos.
Connector
Implementa persistência específica para diferentes backends de armazenamento (CSV, Databricks, etc.).
Context
OrionContext centraliza acesso ao catálogo, logging e configuração.