Calcolo in Tempo di Quiescenza sui Documenti per RAG: dal "Contesto Grezzo" al "Contesto Appreso" prima della query

    Ing. Domenico Ricciotti

    2025

    Abstract

    Proponiamo CTQD (Calcolo in Tempo di Quiescenza sui Documenti), una funzione/architettura per sistemi Retrieval‑Augmented Generation (RAG) che sfrutta i periodi di inattività per pre‑elaborare i documenti caricati dall'utente, trasformando il contesto grezzo (file, testi, immagini, tabelle) in un contesto appreso riusabile al momento della richiesta. CTQD si ispira al paradigma del sleep‑time compute—ovvero "far pensare" i modelli prima della domanda—per ottimizzare l'efficienza del retrieval e la qualità delle risposte generate.

    Parole chiave:

    Retrieval‑Augmented Generation, indicizzazione, embedding, chunking, riepilogo, memoria appresa, sleep‑time compute, FAISS, ColBERT.

    1. Introduzione

    Il recente paradigma del sleep‑time compute sostiene che gli agenti possano impiegare i tempi morti per riorganizzare la conoscenza e "pre‑ragionare" sui contesti, così da ridurre il carico computazionale (e la latenza) quando arriva l'input dell'utente. Tale idea, sviluppata e formalizzata in un lavoro di ricerca convalidato su benchmark di ragionamento, mostra che spostare parte dell'inferenza fuori dal percorso interattivo consente di migliorare il compromesso qualità/costo.

    Nel dominio documentale del RAG, l'utente carica file che rimangono disponibili prima di qualsiasi domanda. CTQD capitalizza questa proprietà: esegue in sleep‑time pipeline di pre‑elaborazione (estrazione, normalizzazione, chunking, embedding, indici, riepiloghi e grafi di conoscenza) per generare un contesto appreso che l'LLM potrà consultare velocemente a test‑time.

    2. Contesto e lavori correlati

    RAG documentale

    L'efficacia del RAG dipende da scelte di chunking e indicizzazione. La letteratura recente evidenzia sia proposte di semantic chunking e approcci ibridi (layout+semantica), sia risultati critici che ne ridimensionano i benefici rispetto a schemi fissi quando si bilanciano costi e performance. Questo invita a trattare il chunking come componente adattiva guidata dai dati.

    Indicizzazione vettoriale e late interaction

    Sistemi come FAISS abilitano ricerca ANN veloce su grandi collezioni, mentre modelli late interaction come ColBERT permettono di pre‑computare rappresentazioni documentali dense, demandando al matching fine-grained l'onere a query time: una proprietà naturale da sfruttare in CTQD.

    3. Architettura CTQD

    3.1. Obiettivo

    Dato un insieme di documenti caricati dall'utente e potenzialmente consultati in futuro, produrre in sleep‑time un Contesto Appreso costituito da:

    • Indici (vettoriali/sparsi/ibridi) ottimizzati
    • Rappresentazioni intermedie (chunk densi, schede entità‑relazioni, timeline, tabelle normalizzate)
    • Riepiloghi multi‑livello e memorie strutturate (fatti, definizioni, procedure, vincoli)
    • Cues previsionali (domande attese, sinonimie, query expansion) e policy di retrieval

    4. Benefici e analisi costi-latenza

    Sia Cs il costo in token di sleep‑time su un corpus di documenti, Ct il costo medio a test‑time per query, N il numero di query previste sullo stesso contesto. Con CTQD:

    Ctot = Cs + N · C̃t, dove C̃t ≪ Ct

    Il beneficio netto cresce con N e con la qualità della previsione delle query future; risultati sperimentali sul sleep‑time compute mostrano correlazione positiva tra prevedibilità e efficacia.

    5. Conclusioni

    Abbiamo presentato CTQD, una funzione ispirata al sleep‑time compute ma specializzata per ecosistemi RAG documentali: fa evolvere il contesto da grezzo a appreso prima della query, migliorando latenza e costo del percorso interattivo e favorendo risposte più coerenti e citabili. La progettazione unisce pratiche consolidate (FAISS, late interaction) e approcci recenti (RAPTOR, compressione selettiva), coordinandole tramite una pianificazione opportunistica guidata dalla prevedibilità delle query future.

    Nota dell'autore: Questo manoscritto descrive un'architettura di riferimento; i risultati quantitativi dipendono dall'implementazione specifica (modelli, budget, domini). Le sezioni sperimentali proposte forniscono un percorso riproducibile per la valutazione.