Ingestion de documents
L’ingestion est la porte d’entrée de tout document dans Simon. Un sous-agent dédié lit chaque fichier, le découpe en segments quand il en contient plusieurs, et en extrait des données structurées prêtes pour la suite du cycle comptable. Le tout est automatique : vous déposez, Simon orchestre.
flowchart LR A[Fichier PDF/CSV] --> B[Segmentation] B --> C[Annotation] C --> D[Validation + dépôt] D --> E[Vérification workflow]1. Segmentation
Un fichier n’est pas forcément un document. Un PDF de dix pages peut réunir un relevé bancaire (pages 1 à 6), une facture (page 7) et un avis fiscal (pages 8 à 10). Le sous-agent commence donc par identifier les segments — les documents logiques contenus dans le fichier — et déclare pour chacun son type (FACTURE, RELEVE_BANCAIRE, FRAIS, BULLETIN_PAIE, AVIS_FISCAL, ENGAGEMENT, OD), sa plage de pages et un court résumé.
2. Annotation, par type
Chaque segment est ensuite confié à un skill d’annotation spécialisé. Le skill connaît le schéma attendu pour son type de document et guide l’extraction des bonnes données :
| Type de document | Données extraites |
|---|---|
| Facture | Numéro, dates, tiers (SIREN / TVA intracom), montants HT/TVA/TTC, lignes, catégorie |
| Relevé bancaire (PDF) | IBAN, banque, opérations (date, libellé, montant, sens), soldes par poste |
| Relevé bancaire (CSV) | Mapping des colonnes vers des opérations standardisées |
| Note de frais | Date, émetteur, montants, catégorie, détails (carburant, repas…) |
| Bulletin de paie | Période, employé, brut, cotisations, net imposable, net à payer |
| Avis fiscal | Type d’impôt, organisme, montant, date limite, base imposable |
| Engagement | Type (emprunt, crédit-bail…), échéancier, taux, durée |
| OD | Type d’OD, date, lignes comptables équilibrées |
3. Validation et dépôt
Une annotation n’est acceptée que si elle tient debout. Simon la confronte à un schéma strict et à quelques contrôles métier : cohérence des montants (HT + TVA = TTC pour une facture), équilibre comptable (débit = crédit pour une OD), cohérence des soldes (solde initial + mouvements = solde final pour un relevé), et conformité des formats (dates normalisées, montants à deux décimales, SIREN à neuf chiffres).
4. Vérification du lot
Une fois tous les segments annotés et déposés, Simon vérifie que le lot est complet : chaque segment déclaré a-t-il bien été traité ? Si tout est en ordre, les fichiers sont archivés et les documents entrent dans le workflow. Sinon, ils restent en attente de correction.
Le cas particulier des relevés bancaires
Les relevés reçoivent un traitement supplémentaire, parce que le sens d’une opération ne se lit pas toujours dans le texte. Pour les PDF, Simon s’appuie sur la position des colonnes crédit/débit pour confirmer le sens de chaque ligne. Il vérifie ensuite que chaque poste (compte principal, carte…) présente un solde initial, des mouvements et un solde final cohérents, avant de matérialiser chaque opération comme transaction bancaire dans la base.
Reclassification
Si un segment a été mal typé — une facture prise pour une note de frais, par exemple — l’agent peut le reclasser. Le document repasse alors par l’annotation, cette fois avec la bonne procédure.
À noter aussi : le blocage de doublon est souple. Quand un fichier ressemble fortement à un document déjà traité sans en être l’exacte copie, Simon vous laisse confirmer s’il s’agit bien d’un doublon volontaire.
Ce qui déclenche la suite
Un dépôt réussi fait entrer le document dans le cycle de vie : il est d’abord déposé, puis le workflow le fait progresser — extraction des données, puis validation des contrôles. L’agent n’enchaîne sur la qualification qu’une fois le document validé.