Document AI : Industrialiser vos processus de traitement de document avec les fonctionnalités de Snowflake

Qu’est-ce que document AI ?
Document AI est l’élément phare de la famille Cortex AI de Snowflake, permettant d’industrialiser le traitement intelligent des documents grâce au modèle LLM Arctic-TILT développé par Snowflake.
Son champ d’action ne se limite pas aux paragraphes textuels ; il peut également extraire du contenu graphique tel que les logos, les signatures ou les cases à cocher. Intégré à la suite Cortex AI, Document AI permet aux utilisateurs d’exploiter les informations extraites comme contexte pour le modèle LLM, offrant ainsi des réponses ciblées et précises.
L’objectif de Document AI est de démocratiser le traitement intelligent des documents et de proposer diverses options de support pour valoriser ces informations, telles que Streamlit et les analyses SQL.
Les composants du document AI ?
Model Build UI :
Le composant Model Build UI de Document AI de Snowflake, accessible via Snowsight, permet de créer et de gérer des modèles d’extraction de données spécifiques à un type de document, comme les factures.
Chaque modèle inclut le modèle lui-même, les valeurs de données à extraire et les documents utilisés pour tester et entraîner le modèle.
L’interface est divisée en plusieurs onglets :
- « Build Details » pour les informations sur le modèle,
- « Documents » pour la liste des documents téléchargés
- « Values » pour les valeurs de données à extraire.
Cette structure facilite la gestion et l’optimisation des modèles pour une extraction de données efficace.
Modèle Arctic-TILT :
Le modèle Arctic-TILT est un modèle LLM qui utilise une architecture de transformateur unique pour comprendre et extraire des données de documents en combinant plusieurs modalités, telles que le texte, les images et les mises en page.
Il offre une compréhension holistique du contenu et de son contexte, avec des performances de pointe sur des benchmarks comme DocVQA, où il surpasse des modèles comme GPT-4 malgré un nombre de paramètres inférieur.
Sa fenêtre de contexte étendue de 375 000 tokens permet de saisir le contexte complet des contenus multimodaux, tandis que son efficacité d’inférence lui permet de gérer des volumes de documents variés tout en maintenant une précision élevée.
Adaptable à diverses applications et industries, Arctic-TILT ne nécessite aucune connaissance préalable des documents et peut être facilement affiné pour répondre aux besoins spécifiques des utilisateurs.
Fonction!PREDICT :
La méthode « !PREDICT» de Document AI de Snowflake permet d’extraire des informations de documents en exécutant une requête d’extraction dans des feuilles de calcul.
Une fois le modèle Document AI publié ou entraîné, les utilisateurs peuvent exécuter cette requête pour extraire des données spécifiques des documents stockés dans des stages internes ou externes. Cette méthode repose sur une requête SQL basée sur «!PREDICT», accessible via l’interface Snowsight.
Pour utiliser cette fonctionnalité, les utilisateurs doivent disposer des rôles et privilèges appropriés, et les documents doivent être correctement stockés.
De plus, Document AI permet de créer des pipelines de traitement automatisés pour extraire en continu des informations des nouveaux documents ajoutés à un stage, en utilisant des flux et des tâches.
Cette approche facilite l’intégration des données extraites dans des workflows opérationnels, améliorant ainsi l’efficacité et l’automatisation des processus documentaires.
Optimisation des processus business :
Dans le contexte des opérations métiers, les entreprises sont souvent confrontées à des défis lorsqu’elles doivent vérifier des documents générés par rapport à leur système de référence.
Les processus manuels traditionnels, impliquant la comparaison visuelle des documents, sont chronophages et sujets aux erreurs. Pour surmonter ces obstacles, certaines entreprises ont initialement collaboré avec des fournisseurs pour développer des plateformes, mais cela a nécessité des mois de développement et des années de fine-tuning. En adoptant une solution de Document AI en interne, les entreprises peuvent réduire leur dépendance vis-à-vis des tiers, diminuer les coûts de traitement des documents et gagner en flexibilité.
La solution traite divers types de documents avec une architecture facile à maintenir. Cette approche permet d’automatiser et de rationaliser le traitement des documents, améliorant ainsi l’efficacité opérationnelle et la précision des données.
Inscrivez-vous à nos prochains petits déjeuners data
Pré-inscrivez-vous et recevez l’invitation dès qu’une nouvelle session aura lieu.