Aller au contenu
Français

Ingestion de documents

L’ingestion est la porte d’entrée de tout document dans Simon. Un sous-agent dédié lit chaque fichier, le découpe en segments quand il en contient plusieurs, et en extrait des données structurées prêtes pour la suite du cycle comptable. Le tout est automatique : vous déposez, Simon orchestre.

flowchart LR
A[Fichier PDF/CSV] --> B[Segmentation]
B --> C[Annotation]
C --> D[Validation + dépôt]
D --> E[Vérification workflow]

1. Segmentation

Un fichier n’est pas forcément un document. Un PDF de dix pages peut réunir un relevé bancaire (pages 1 à 6), une facture (page 7) et un avis fiscal (pages 8 à 10). Le sous-agent commence donc par identifier les segments — les documents logiques contenus dans le fichier — et déclare pour chacun son type (FACTURE, RELEVE_BANCAIRE, FRAIS, BULLETIN_PAIE, AVIS_FISCAL, ENGAGEMENT, OD), sa plage de pages et un court résumé.

2. Annotation, par type

Chaque segment est ensuite confié à un skill d’annotation spécialisé. Le skill connaît le schéma attendu pour son type de document et guide l’extraction des bonnes données :

Type de documentDonnées extraites
FactureNuméro, dates, tiers (SIREN / TVA intracom), montants HT/TVA/TTC, lignes, catégorie
Relevé bancaire (PDF)IBAN, banque, opérations (date, libellé, montant, sens), soldes par poste
Relevé bancaire (CSV)Mapping des colonnes vers des opérations standardisées
Note de fraisDate, émetteur, montants, catégorie, détails (carburant, repas…)
Bulletin de paiePériode, employé, brut, cotisations, net imposable, net à payer
Avis fiscalType d’impôt, organisme, montant, date limite, base imposable
EngagementType (emprunt, crédit-bail…), échéancier, taux, durée
ODType d’OD, date, lignes comptables équilibrées

3. Validation et dépôt

Une annotation n’est acceptée que si elle tient debout. Simon la confronte à un schéma strict et à quelques contrôles métier : cohérence des montants (HT + TVA = TTC pour une facture), équilibre comptable (débit = crédit pour une OD), cohérence des soldes (solde initial + mouvements = solde final pour un relevé), et conformité des formats (dates normalisées, montants à deux décimales, SIREN à neuf chiffres).

4. Vérification du lot

Une fois tous les segments annotés et déposés, Simon vérifie que le lot est complet : chaque segment déclaré a-t-il bien été traité ? Si tout est en ordre, les fichiers sont archivés et les documents entrent dans le workflow. Sinon, ils restent en attente de correction.


Le cas particulier des relevés bancaires

Les relevés reçoivent un traitement supplémentaire, parce que le sens d’une opération ne se lit pas toujours dans le texte. Pour les PDF, Simon s’appuie sur la position des colonnes crédit/débit pour confirmer le sens de chaque ligne. Il vérifie ensuite que chaque poste (compte principal, carte…) présente un solde initial, des mouvements et un solde final cohérents, avant de matérialiser chaque opération comme transaction bancaire dans la base.

Reclassification

Si un segment a été mal typé — une facture prise pour une note de frais, par exemple — l’agent peut le reclasser. Le document repasse alors par l’annotation, cette fois avec la bonne procédure.

À noter aussi : le blocage de doublon est souple. Quand un fichier ressemble fortement à un document déjà traité sans en être l’exacte copie, Simon vous laisse confirmer s’il s’agit bien d’un doublon volontaire.


Ce qui déclenche la suite

Un dépôt réussi fait entrer le document dans le cycle de vie : il est d’abord déposé, puis le workflow le fait progresser — extraction des données, puis validation des contrôles. L’agent n’enchaîne sur la qualification qu’une fois le document validé.