Corpus annotation “can be defined as the practice of adding interpretative, linguistic information to an electronic corpus of spoken and/or written language data. ‘Annotation’ can also refer to the end-product of this process” (Leech, 1997).
Before using any automatic annotation tool/software, it is important to consider its error rate (where applicable) and to estimate how those errors will affect the purpose for the annotated corpora.
Brigitte Bigi (2015).
SPPAS - Multi-lingual Approaches to the Automatic Annotation of Speech.
In "the Phonetician" - International Society of Phonetic Sciences,
ISSN 0741-6164, Number 111-112 / 2015-I-II, pages 54-69.
wav
and au
audio file formatsdonc + i- i(l) prend la è- recette et tout bon i(l) vé- i(l) dit bon [okay, k]
ah mais justement c’était pour vous vendre bla bla bla bl(a) le mec i(l) te l’a emboucané + en plus i(l) lu(i) a [acheté,acheuté] le truc et le mec il est parti j(e) dis putain le mec i(l) voulait
euh les apiculteurs + et notamment b- on ne sait pas très bien + quelle est la cause de mortalité des abeilles m(ais) enfin il y a quand même + euh peut-êt(r)e des attaques systémiques
Garbage in, garbage out