Codestin Search App

100 lines (78 loc) · 3.24 KB
"""Configuration loading for DTD Pipeline."""
import json
from pathlib import Path
from typing import Optional
from pydantic import BaseModel, Field
from models import PodcastConfig
class Config(BaseModel):
    """Pipeline configuration loaded from environment."""
    # Taddy API
    taddy_api_key: str = Field(default="")
    taddy_user_id: str = Field(default="")
    lookback_days: int = Field(default=7)
    # Whisper
    whisper_model: str = Field(default="large-v3")
    whisper_device: str = Field(default="cuda")
    whisper_compute_type: str = Field(default="float16")
    # Pyannote
    hf_token: str = Field(default="")
    pyannote_model: str = Field(default="pyannote/speaker-diarization-3.1")
    # Speaker ID
    speaker_match_threshold: float = Field(default=0.70)
    # Supabase
    supabase_url: str = Field(default="")
    supabase_key: str = Field(default="")
    supabase_bucket: str = Field(default="podcast-transcripts")
    # Paths
    data_dir: Path = Field(default=Path("data"))
    audio_dir: Path = Field(default=Path("data/audio"))
    speakers_dir: Path = Field(default=Path("data/speakers"))
    logs_dir: Path = Field(default=Path("data/logs"))
    state_db_path: Path = Field(default=Path("data/state.db"))
    # Podcasts config
    podcasts_config_path: Path = Field(default=Path("podcasts.json"))
def load_config() -> Config:
    """Load configuration from environment variables."""
    return Config(
        # Taddy
        taddy_api_key=os.getenv("TADDY_API_KEY", ""),
        taddy_user_id=os.getenv("TADDY_USER_ID", ""),
        lookback_days=int(os.getenv("LOOKBACK_DAYS", "7")),
        # Whisper
        whisper_model=os.getenv("WHISPER_MODEL", "large-v3"),
        whisper_device=os.getenv("WHISPER_DEVICE", "cuda"),
        whisper_compute_type=os.getenv("WHISPER_COMPUTE_TYPE", "float16"),
        # Pyannote
        hf_token=os.getenv("HF_TOKEN", ""),
        pyannote_model=os.getenv("PYANNOTE_MODEL", "pyannote/speaker-diarization-3.1"),
        # Speaker ID
        speaker_match_threshold=float(os.getenv("SPEAKER_MATCH_THRESHOLD", "0.70")),
        # Supabase
        supabase_url=os.getenv("SUPABASE_URL", ""),
        supabase_key=os.getenv("SUPABASE_KEY", ""),
        supabase_bucket=os.getenv("SUPABASE_BUCKET", "podcast-transcripts"),
        # Paths
        data_dir=Path(os.getenv("DATA_DIR", "data")),
        audio_dir=Path(os.getenv("AUDIO_DIR", "data/audio")),
        speakers_dir=Path(os.getenv("SPEAKERS_DIR", "data/speakers")),
        logs_dir=Path(os.getenv("LOGS_DIR", "data/logs")),
        state_db_path=Path(os.getenv("STATE_DB_PATH", "data/state.db")),
        podcasts_config_path=Path(os.getenv("PODCASTS_CONFIG_PATH", "podcasts.json")),
def load_podcasts(config: Config) -> list[PodcastConfig]:
    """Load podcast configurations from JSON file."""
    config_path = config.podcasts_config_path
    if not config_path.exists():
        return []
    with open(config_path) as f:
        data = json.load(f)
    return [PodcastConfig(**p) for p in data.get("podcasts", [])]
# Global config instance
_config: Optional[Config] = None
def get_config() -> Config:
    """Get or create global config instance."""
    global _config
    if _config is None:
        _config = load_config()
    return _config
Provide feedback

Saved searches

Use saved searches to filter your results more quickly

FilesExpand file tree

config.py

Latest commit

History

config.py

File metadata and controls