Cos’è CorAIt

Presentazione del corpus.

Introduzione

Il Corpus Audio di Italiano L2 (CorAIt) è un progetto ideato e sviluppato da Claudia Roberta Combei (dottoranda dell’Università di Pisa) nel periodo gennaio 2016 – giugno 2017.

Il database è liberamente consultabile online esclusivamente per scopi di ricerca scientifica. CorAIt contiene circa 8 ore di materiale audio prodotto da parlanti stranieri di italiano L2. Vengono fornite sia registrazioni di parlato letto (prima e seconda lettura) che registrazioni di parlato spontaneo. Attualmente è disponibile la trascrizione ortografica dei brani di parlato letto.

Database

Il database CorAIt è in continuo aggiornamento. Finora sono state caricate 2.244 samples di parlato prodotte da 105 parlati stranieri di madrelingua: francese, romena, spagnola, inglese, tedesca e russa. Inoltre, il corpus CorAIt mette a disposizione 340 samples audio prodotte da 17 parlanti nativi di italiano registrati nello stesso periodo e con lo stesso protocollo sperimentale.

Nel compito di lettura, a tutti i partecipanti è stato chiesto di leggere lo stesso brano tratto dall’articolo di giornale “Pietro. I chiaroscuri della fede” (Lauretta Colonnelli), pubblicato il 6 Febbraio 2013 sul Corriere della Sera. Per elicitare il parlato spontaneo è stata utilizzata la tecnica dell’intervista.

Materiale Audio

Il materiale audio è stato campionato usando i seguenti parametri: 44.100 Hz, 16 bit, mono channel, .wav. I brani presenti su CorAIt sono stati convertiti in .mp3.

Per consentire una ricerca più agevole il materiale è stato arricchito con le seguenti informazioni sociolinguistiche e qualitative:

  • Tipo di produzione (prima lettura, seconda lettura, parlato spontaneo)
  • Lingua madre (francese, italiano, romeno, spagnolo, inglese, tedesco, russo)
  • Sesso (femmina, maschio)
  • Livello conoscenza di italiano (A2, B1, B2, C1, C2)
  • Età prima esposizione (età infantile, età adolescenziale, età adulta)
  • Modalità principale di apprendimento dell'italiano (scolastica, naturalistica)
  • Permanenza in Italia (6-12 mesi, 12-24 mesi, > 24 mesi)
  • Età al momento della registrazione (18-48 anni)
  • Altre lingue straniere conosciute
  • Qualità registrazione (scarsa, buona, eccellente)

Si è cercato di fornire una raccolta uniforme e bilanciata di materiale audio prodotto da parlanti di italiano L2. Tuttavia, le sette classi non sono ancora perfettamente omogenee.

Credits

La responsabile del progetto ringrazia i parlanti che hanno partecipato a questo studio. Un ringraziamento speciale va ad Antonio Maria Tenace del team di Treebe Data Creative che ha curato la parte tecnica e grafica della webapp.


Per contattare la responsabile del progetto inviare una richiesta compilando il modulo online disponibile nella sezione Contatti.
CorAIt - Claudia Roberta Combei 2017
Policy - Cookie