Importer des documents

Décisions genevoises (JSON) et arrêts du Tribunal fédéral (HTML) — glissez-déposez vos fichiers

1
Parsing
JSON ou HTML — détection auto
2
Classification LLM
Sections Majeure / Faits / Dispositif
3
Embedding BGE-Large
Vecteurs sémantiques 256 dims
4
Indexation ChromaDB
Stockage et recherche vectorielle

Format source — Fichiers .json avec champs plats : document_text, normes, nature… Chunking par paragraphes puis classification LLM.

Format pré-classifié — Fichiers .json avec champ structured_sentences (sections Metadata, Majeure, Mineure-Faits, etc.). Sections utilisées directement comme chunks.

Arrêts BGE/ATF — Fichiers .html téléchargés depuis search.bger.ch. Un aperçu est affiché avant confirmation de l'import.

Import en lot — Tableau JSON [{...}, {...}] : envoi automatique par lots de 20 documents.

Glissez-déposez vos fichiers ici

ou parcourez vos fichiers·ou un dossier
.json — Source / Pré-classifié· .html — BGE/ATF (Tribunal fédéral)
Format source.json
{
  "id": "1678696833",
  "decision": "AARP/73/2023",
  "nature": "PENAL",
  "datedecision": "15.02.2023",
  "normes": "CPP.386.al2.leta;...",
  "document_text": "..."
}
Format pré-classifié.json
{
  "id": "1674117976",
  "structured_sentences": {
    "Metadata": ["République..."],
    "Majeure": ["Art. 56 CPP..."],
    "Mineure-Faits": ["Le 7 sept..."],
    "Conclusion": ["Rejeté."]
  }
}
Arrêt BGE/ATF.html

Téléchargez la page HTML d'un arrêt depuis search.bger.ch (Fichier → Enregistrer sous) et glissez-déposez le fichier .html ici.

Un aperçu du numéro ATF, du regeste et des normes est affiché avant confirmation de l'import.