Alignement temporel : de l'orthographique à la phonétique

Brigitte Bigi

Atelier OACQUIL
13 janvier 2026

Transcrire et aligner de la parole

Hésitation:	Rires:
Mots inventés ou régionaux :	Hypo-articulation:
Réparations, répétitions, mots tronqués :	Autres : élisions, bruits, etc.

non mais @ je sais pas tu ne tu te vois nous parler + on- moi je nous par- je n- @ je nous parlais

Pour aligner, tout ce qui est dans le signal audio doit être transcrit.

Ce que je vais vous faire entendre correspond à de la parole spontanée ordinaire. On y trouve des hésitations, des amorces, des répétitions, parfois des mots tronqués ou des rires. Ces phénomènes ne sont pas des “bruits” à éliminer : ils font partie du signal. Dès lors, transcrire ne consiste pas à produire une version standardisée du discours, mais à représenter ce qui est effectivement audible. Pour l’alignement, ce point est central : la synchronisation temporelle repose sur une correspondance stricte entre le signal et la transcription. Toute omission ou réécriture introduit un décalage.

Cadre théorique

À partir de ce constat, deux principes structurent le cadre.

Les deux idées clés

(1) La synchronisation temporelle de toutes les annotations est le point d'entrée de la multimodalité.

Capture Annotations multimodales — Corpus Grenelle II (2010)

Cette première idée est centrale. Toutes les annotations sont synchronisées sur le même axe temporel, celui du signal. Concrètement, cela veut dire que chaque annotation est définie par un intervalle de temps : un début et une fin. Cet intervalle sert de repère commun, quel que soit le niveau descriptif. Cela signifie que les niveaux descriptifs ne sont pas indépendants : ils sont tous ancrés dans le temps, et donc comparables entre eux. On peut, par exemple, relier un événement au niveau du mot à ce qui se passe au niveau des sons, ou inversement, uniquement parce qu’ils partagent la même référence temporelle. C’est cette synchronisation qui rend possible la multimodalité : si l’on annote aussi des événements non verbaux — gestes, regards, mouvements — eux aussi sous forme d’intervalles temporels, alors la mise en relation devient immédiate. On ne rapproche pas des objets “par interprétation” : on les met en relation parce qu’ils sont situés sur la même ligne temporelle.

Les deux idées clés

(2) Tout ce qui est automatisable... doit être automatisé.

Machine

Humain

rapide, répétable, taux d'erreur

lent, coûteux, peu d'erreurs

quantité

qualité

🧩 L'automatisation, oui — mais dans un cadre linguistique maîtrisé... L'humain est requis durant le processus et/ou après !

Dès lors que les annotations sont formalisées et synchronisées temporellement, certaines tâches deviennent automatisables. Il s’agit en priorité des tâches répétitives, systématiques, et bien définies : segmenter, convertir, aligner, appliquer des règles de façon homogène sur de grands volumes de données. L’automatisation n’a pas pour objectif de remplacer l’analyse linguistique, mais de la rendre possible à l’échelle des corpus actuels. Elle permet de traiter rapidement, de manière cohérente, et reproductible. Malgré tout, l’intervention humaine reste indispensable : en amont, pour définir les conventions et les catégories ; en aval, pour contrôler, corriger et interpréter les résultats.

La difficulté

When annotating corpora at multiple linguistic levels, annotators may use different expert tools for different phenomena or types of annotation. These tools employ different data models and accompanying approaches to visualization, and they produce different output formats. (Chiarcos et al. 2008)

⏰ Le choix des outils logiciels... se fait en amont de la captation. Il conditionne la qualité, la pérennité et la réutilisation du corpus.

Quand on multiplie les niveaux d’annotation, on multiplie aussi les outils. Chaque outil a son propre modèle de données, sa propre visualisation, ses propres formats de sortie. Cela complique fortement l’articulation entre annotations. Le point important ici est temporel et méthodologique : le choix des outils ne se fait pas après coup. Il se fait avant la captation, parce qu’il conditionne tout le reste.

Le choix des outils logiciels 🤯 …

Science ouverte et principes FAIR

Licence libre / open source
Utilisable avant, pendant et après la constitution du corpus
Multiplateforme, accessible aux linguistes
Adapté aux tâches visées (annotation, alignement)
Interopérable : formats standards, import/export

SPPAS remplit ces critères : libre, multiplateforme, formats multiples, automatisation et reproductibilité.

https://sppas.org/

Ici, je rappelle un principe général : science ouverte et principes FAIR. Un outil doit être libre, interopérable, et utilisable tout au long de la vie du corpus. Ce sont des contraintes méthodologiques, pas idéologiques. Elles conditionnent la pérennité des données, leur partage, et leur réutilisation. SPPAS répond à ces critères.

SPPAS : segmentation automatique de la parole

Prix Science Ouverte du logiciel libre de la recherche

SPPAS : accessit prix spécial du jury, concours science ouverte du logiciel libre

version 1

version 2

version 3 & 4

version 5 (à venir)

SPPAS est un logiciel libre dédié à l'annotation automatique de la parole. Il est utilisé ici principalement pour la segmentation et l'alignement. Je montre rapidement son évolution et sa reconnaissance institutionnelle, non pas pour faire un bilan, mais pour situer l’outil : outil mature, utilisé, éprouvé, et reconnu institutionnellement.

SPPAS version 4.30 (Décembre 2025)

24 annotations
15 langues
analyses des annotations
conversion de fichiers

+30 : publications
>580 : citations
>1650 : téléchargements en 2025
110k lignes de Python
90k lignes de commentaires et docstrings Python
170 : pages de documentation
1 : prix du ministère

Cette slide donne un ordre de grandeur. Nombre d’annotations, de langues, de publications, de téléchargements. L’objectif n’est pas le détail, l'objectif est de montrer que l’outil couvre un large spectre de besoins et qu’il est utilisé sur des volumes importants.

Pipeline outil/tâche 🧱

On arrive maintenant au cœur du processus. L’annotation est organisée comme un pipeline, avec des étapes clairement identifiées. La transcription est le point d’entrée. Tout ce qui suit dépend directement de sa qualité.

Transcription alignée sur le signal ⚙️

SPPAS - Segmentation en IPUs - Inter-Pausal Units
Praat - Transcription orthographique enrichie (TOE), au sein des IPUs
- corriger les frontières des IPUs (erreurs de SPPAS),
- transcrire.
SPPAS - Normalisation et conversion graphèmes-phonèmes
SPPAS - Alignement en phonèmes et mots

Workflow Pipeline — Flux des tâches : de l'audio aux phonèmes et mots alignés

Sur le plan opérationnel, le traitement commence par une segmentation automatique en unités inter-pausales. Ces unités définissent le cadre temporel dans lequel la transcription est réalisée. La transcription est donc le point d’entrée linguistique, la segmentation le point de départ technique. La transcription orthographique enrichie est ensuite réalisée dans ces unités, avec un contrôle humain ciblé. Les étapes suivantes — normalisation, phonétisation, alignement — sont entièrement automatisées.

Segmentation en unités inter-pausales

Détermine les segments audibles

Exemple IPUs dans SPPAS — Exemple de segmentation en IPUs

La segmentation vise à détecter tous les segments potentiellement audibles. L’outil privilégie volontairement la sur-détection plutôt que l’omission. Le risque accepté est celui de segments en trop, le risque évité est celui de segments manquants. Le contrôle humain consiste alors à corriger ou supprimer des segments détectés, sans avoir à parcourir l’intégralité du signal, ce qui réduit considérablement le temps de vérification.

La Transcription Orthographique Enrichie 🧬

Il faut une convention qui permet d'automatiser à la fois les annotations :

(morpho-)syntaxique, et
phonétique, et
autres !

La TOE encode les décisions linguistiques humaines pour permettre l’automatisation.

Je montre ici deux exemples concrets. On y voit une élision, et une prononciation inattendue. La transcription repose sur une convention explicite. Cette convention doit permettre à la fois des traitements syntaxiques et des traitements phonétiques. La transcription n’est donc pas seulement un texte : elle encode des décisions linguistiques.

Exemples de Transcription Orthographique Enrichie

Exemples d'extraits audio des corpus CID et Cheese!

ah mais justement c'était pour vous vendre bla bla bla bl- le mec il te l'a emboucané en plus il lui a acheté le truc et le mec il est parti je dis putain le mec il voulait

et puis euh bon je [rechausse, rechose]
ou(ais) ouais @ oui oui normalement quand même @
je [rechausse, rechoge] je repars deuxième virage je me casse la gueule
m(ais) attends et je mes fixations s(ont) pas bien réglées [c',z] est en fait c'est m- + ma chaussure qu(i) était partie

Les élisions sont entre parenthèses et les prononciations inattendues avec une double mention (ortho truquée, ortho standard), les rires avec une arobase, les mots tronqués avec un 'moins' final, etcétéra. car ... la convention de transcription ne doit pas faire perdre d'information.

Normalisation et conversion graphèmes-phonèmes

Normalisation : transformation de la transcription enrichie en formes exploitables automatiquement
Phonétisation : génération de variantes phonétiques à partir des formes normalisées

Étapes linguistiques : elles préparent l’alignement.

À partir de la transcription orthographique enrichie, la normalisation transforme les formes produites par l’humain en représentations exploitables automatiquement. La phonétisation génère ensuite un ensemble de variantes phonétiques possibles. Ces étapes sont entièrement automatisées. L’intervention humaine n’est pas requise pour l’exécution, mais elle reste possible pour adapter les ressources et les paramètres aux spécificités d’un corpus donné.

Alignement temporel

Mise en correspondance des phonèmes et des mots avec le signal audio
Sélection automatique de la variante phonétique la plus compatible avec le signal

Exemple (variantes) : le mot "petit"

L'alignement choisit automatiquement la variante la plus compatible avec le signal
pti	p@ti	ptit	p@tit

Résultat : toutes les annotations sont synchronisées sur l’axe temporel du signal.

L’alignement met en correspondance les unités linguistiques avec le signal audio. Lorsqu’il existe plusieurs variantes phonétiques possibles, l’alignement sélectionne celle qui est la plus compatible avec le signal. Comme on le voit dans l'exemple avec le mot petit qui peut être prononcé de 4 façons différentes. Le résultat de l'alignement est un ensemble d’annotations toutes synchronisées temporellement.

Exemple de résultat, avec rires et élisions

Cet exemple montre le résultat de l’alignement sur une parole conversationnelle.

Exemple de résultat, avec prononciation inattendue

Idem pour ce second exemple.

La suite...

Je termine en ouvrant sur les évolutions récentes.

Un nouveau paradigme avec SPPAS/STT

"Speech-To-Text" (STT) est une annotation proposée dans SPPAS
Utilise Whisper d'OpenAI pour transcrire orthographiquement les IPUs
Édition manuelle pour :
- corriger les frontières des IPUs (erreurs de SPPAS)
- transcrire, ou corriger / enrichir la transcription (erreurs et manques de Whisper)

Whisper lisse, nettoie, et efface tout ce qui fait la richesse ou la complexité du langage parlé.

L’intégration d’un module Speech-to-Text modifie une étape du pipeline : la transcription, auparavant entièrement manuelle, devient partiellement automatisable. Cette automatisation pose des contraintes nouvelles. En particulier, l’usage d’outils d’IA impose que le cadre juridique soit explicitement défini. La conformité au RGPD, ainsi que les politiques institutionnelles en vigueur, doivent être vérifiées avant toute utilisation sur des données de parole.

Whisper + SPPAS : exemple

Et ouais, exactement ! Il me dit, mais vous êtes taré, vous, pourquoi vous appelez ça...
De la crème de marron alors qu'il faut des châtails, pourquoi il n'est pas appelé ça, la crème de châtaille !
Aïe, je dis ben...
Pour nous, ça niait.
in the
s'est transmise
C'est des châtaignes ! Mais bien sûr, il n'y a que ça qui est comme...

Cet exemple illustre les limites actuelles. Whisper produit une transcription fluide, mais il lisse et efface une partie de la complexité du langage parlé. Cela pose directement la question du compromis entre automatisation et fidélité au signal, question que nous discuterons ensuite.

A propos

Auteur : Brigitte Bigi
Dernière modification : 2026-01-13
Licence CC BY-NC-ND 4.0 :

This document is a creative work, the exclusive property of "Laboratoire Parole et Langage (UMR7309)", protected by French and international intellectual property law, and licensed under CC BY-NC-ND (Attribution / Non-Commercial / No Derivatives).

This license permits any distribution (sharing, copying, reproducing, distributing, communicating), except for commercial purposes, by any means and in any format, provided that the work is distributed without modification and in its entirety.

You are free to copy, distribute, and transmit this document, provided that you credit the LPL.

je vous remercie pour votre attention blabla, vous trouverez tous les liens .

Liens utiles

SPPAS : https://sppas.org/
Praat : https://www.fon.hum.uva.nl/praat/

Corpus CID :
- Vidéos : https://www.ortolang.fr/market/corpora/sldr000027
- Audio + ortho + Phon + Syll + Syntaxe : https://www.ortolang.fr/market/corpora/sldr000720
- Disfluences : https://www.ortolang.fr/market/corpora/ortolang-000722
Corpus Cheese! :
- https://www.ortolang.fr/market/corpora/cheese/
Corpus Grenelle II :
- Audio/Vidéo : https://www.ortolang.fr/market/corpora/sldr000744
- Annotations multimodales : https://www.ortolang.fr/market/corpora/sldr000755