Ensemble de données authentiques, compilées sous forme de textes écrits ou sous forme de transcriptions effectuées à partir de paroles enregistrées et sélectionnées selon un ou plusieurs critères linguistiques (type de textes, variété de langue, période de production, thème abordé) pour en faire un échantillon représentatif.
&
Un corpus ne se lit pas, il s’interroge. Il contient un échantillon représentatif d’une langue ou d’une variante de langue (variante géographique ; registre, domaine de spécialité particulier) et peut être associé à d’autres corpus à des fins de comparaison. Les données peuvent être brutes (le corpus ne contient que le texte) ou annotées (le corpus peut par exemple être étiqueté, chaque mot étant associé à sa catégorie grammaticale). Les données sont par ailleurs authentiques ; on ne les «crée» pas pour la circonstance.
Collection of authentic instances of data and texts, including (transcribed) spoken and written language, which have been gathered according to a specific set of criteria (text types, language variations, time period and theme) to be used as a representative sample.
مجموعة من المعطيات الأصلية تأتي على شكل نصوص مكتوبة أو تسجيلات مدوّنة، يجري انتقاؤها وفقًا لمعايير محددة [نوع النصوص، و/أو تنوّع اللغة قيد الدراسة، و/أو حِقبة الإنتاج، و/أو الموضوع المعالج] بغرض استخدامها كعيّنة نموذجية.