Calcolo in Tempo di Quiescenza sui Documenti per RAG: dal "Contesto Grezzo" al "Contesto Appreso" prima della query

Ing. Domenico Ricciotti

2025

Abstract

Proponiamo CTQD (Calcolo in Tempo di Quiescenza sui Documenti), una funzione/architettura per sistemi Retrieval‑Augmented Generation (RAG) che sfrutta i periodi di inattività per pre‑elaborare i documenti caricati dall'utente, trasformando il contesto grezzo (file, testi, immagini, tabelle) in un contesto appreso riusabile al momento della richiesta. CTQD si ispira al paradigma del sleep‑time compute—ovvero "far pensare" i modelli prima della domanda—per ottimizzare l'efficienza del retrieval e la qualità delle risposte generate.

Parole chiave:

Retrieval‑Augmented Generation, indicizzazione, embedding, chunking, riepilogo, memoria appresa, sleep‑time compute, FAISS, ColBERT.

1. Introduzione

Il recente paradigma del sleep‑time compute sostiene che gli agenti possano impiegare i tempi morti per riorganizzare la conoscenza e "pre‑ragionare" sui contesti, così da ridurre il carico computazionale (e la latenza) quando arriva l'input dell'utente. Tale idea, sviluppata e formalizzata in un lavoro di ricerca convalidato su benchmark di ragionamento, mostra che spostare parte dell'inferenza fuori dal percorso interattivo consente di migliorare il compromesso qualità/costo.

Nel dominio documentale del RAG, l'utente carica file che rimangono disponibili prima di qualsiasi domanda. CTQD capitalizza questa proprietà: esegue in sleep‑time pipeline di pre‑elaborazione (estrazione, normalizzazione, chunking, embedding, indici, riepiloghi e grafi di conoscenza) per generare un contesto appreso che l'LLM potrà consultare velocemente a test‑time.

2. Contesto e lavori correlati

RAG documentale

L'efficacia del RAG dipende da scelte di chunking e indicizzazione. La letteratura recente evidenzia sia proposte di semantic chunking e approcci ibridi (layout+semantica), sia risultati critici che ne ridimensionano i benefici rispetto a schemi fissi quando si bilanciano costi e performance. Questo invita a trattare il chunking come componente adattiva guidata dai dati.

Indicizzazione vettoriale e late interaction

Sistemi come FAISS abilitano ricerca ANN veloce su grandi collezioni, mentre modelli late interaction come ColBERT permettono di pre‑computare rappresentazioni documentali dense, demandando al matching fine-grained l'onere a query time: una proprietà naturale da sfruttare in CTQD.

3. Architettura CTQD

3.1. Obiettivo

Dato un insieme di documenti caricati dall'utente e potenzialmente consultati in futuro, produrre in sleep‑time un Contesto Appreso costituito da:

Indici (vettoriali/sparsi/ibridi) ottimizzati
Rappresentazioni intermedie (chunk densi, schede entità‑relazioni, timeline, tabelle normalizzate)
Riepiloghi multi‑livello e memorie strutturate (fatti, definizioni, procedure, vincoli)
Cues previsionali (domande attese, sinonimie, query expansion) e policy di retrieval

4. Benefici e analisi costi-latenza

Sia C_s il costo in token di sleep‑time su un corpus di documenti, C_t il costo medio a test‑time per query, N il numero di query previste sullo stesso contesto. Con CTQD:

C_tot = C_s + N · C̃_t, dove C̃_t ≪ C_t

Il beneficio netto cresce con N e con la qualità della previsione delle query future; risultati sperimentali sul sleep‑time compute mostrano correlazione positiva tra prevedibilità e efficacia.

5. Conclusioni

Abbiamo presentato CTQD, una funzione ispirata al sleep‑time compute ma specializzata per ecosistemi RAG documentali: fa evolvere il contesto da grezzo a appreso prima della query, migliorando latenza e costo del percorso interattivo e favorendo risposte più coerenti e citabili. La progettazione unisce pratiche consolidate (FAISS, late interaction) e approcci recenti (RAPTOR, compressione selettiva), coordinandole tramite una pianificazione opportunistica guidata dalla prevedibilità delle query future.

Nota dell'autore: Questo manoscritto descrive un'architettura di riferimento; i risultati quantitativi dipendono dall'implementazione specifica (modelli, budget, domini). Le sezioni sperimentali proposte forniscono un percorso riproducibile per la valutazione.