Tokenisation

La tokenisation est le processus de conversion d'un texte brut en séquence de tokens, les unités élémentaires que les modèles de langage manipulent. Un token peut être un mot, un fragment de mot (sous-mot), un caractère ou un signe de ponctuation, selon l'algorithme de tokenisation utilisé.

Pour les modèles GPT, un token correspond en moyenne à 4 caractères en anglais et 2-3 caractères en français (le français nécessite plus de tokens par phrase). Cette notion est importante car les API des LLM facturent à l'usage en tokens, et la taille du contexte (nombre maximal de tokens en entrée + sortie) est une contrainte technique.

Dans le contexte de VoxiaFlow, la tokenisation intervient à plusieurs niveaux : la transcription de l'appel est tokenisée pour être envoyée au LLM, la base de connaissances est tokenisée pour créer des embeddings, et la réponse générée consomme des tokens de sortie. L'optimisation de la tokenisation (prompts concis, contexte pertinent via RAG) permet de réduire les coûts et la latence.

Découvrez comment VoxiaFlow utilise Tokenisation

Voyez cette technologie en action dans notre réceptionniste IA. Essai gratuit 14 jours, sans engagement.

Essai gratuit Retour au glossaire

Catégories

Intelligence Artificielle 20

Téléphonie 16

Intégration 9

Sécurité 1

Métrique 7

Découvrez comment VoxiaFlow utilise Tokenisation

Termes liés

Catégories

Sophie