Fonetica

11.4 Fonetica

11.4.1 Vocali

Il segnale generato dalla laringe ha forma d'onda del tipo a dente di sega e, analizzato, presenta una struttura ad armonici d'ampiezza decrescente dal basso all’acuto (Fig. 11.4.1). Il suono laringeo risale il canale vocale, che si allarga in più cavità delle quali le più ampie sono quella faringea e quella buccale. Il volume di queste dipende dalle dimensioni anatomiche dell'individuo e dall'atteggiamento degli organi articolatori. Poiché al volume di ogni cavità corrisponde una determinata frequenza di risonanza, le armoniche la cui frequenza di vibrazione corrisponde alla frequenza di risonanza della cavità attraversata vengono amplificate; tuttavia, dato che la forma e le dimensioni delle due cavità non sono nettamente determinate, l'amplificazione non si verifica per singole armoniche, ma per gruppi di armoniche chiamati formanti del timbro o, semplicemente, formanti (Fig. 11.4.2). La forma e le dimensioni delle cavità del canale vocale variano con continuità a seconda dei movimenti articolatori della mandibola, della lingua e delle labbra. Al loro variare variano le frequenze di risonanza delle due cavità e la voce assume strutture formantiche, cioè timbri, diverse. Quando i timbri si fanno sistematici essi possono assumere il valore di segnali utili alla comunicazione acustica ed allora si parla di vocali. Delle formanti che partecipano alla struttura acustica della voce le due più basse sono sufficienti a caratterizzare le v. e quindi sono adottate in fonetica per identificarle. Ciò che rende i timbri vocalici distinguibili – e quindi utili ai fini della comunicazione – non è il valore assoluto delle frequenze delle loro formanti, ma il loro rapporto all'interno del sistema fonetico del soggetto parlante. Si veda, p. es., alla Fig. 11.5.4(a) come i valori delle v. di singoli informatori possano collocarsi nell'area di esistenza di v. adiacenti del gruppo preso in esame. Il fatto ha particolare importanza nel canto (vedi paragrafo 11.5.5). Per quanto dal punto di vista acustico non sia esatto, ai fini pratici può far comodo considerare la prima, la più bassa, dipendente dalla cavità faringea e la seconda da quella buccale. L'ambito di variabilità delle v. è delimitato dalle possibilità articolatorie concesse dall'anatomia, che variano fra l'atteggiamento a bocca aperta e movimenti derivati da quelli innati della suzione e del riso. L'atteggiamento fonatorio a bocca aperta come nella respirazione orale e lingua inerte – quello, cioè, a minore dispendio energetico – lascia il canale vocale diviso in due cavità delle quali quella faringea ha volume maggiore di quella buccale. In questo atteggiamento la cavità di risonanza faringea ha il volume minore fra tutti quelli che essa può assumere nella produzione delle diverse v. e la risonanza complessiva del canale vocale dà luogo ad un suono in cui la frequenza della seconda formante è quasi doppia della prima. Benché l'intonazione e le frequenze formantiche della voce di un bambino che dice per la prima volta "mamma" e quella di un uomo adulto siano profondamente diverse, l'esperienza ci fa attribuire al timbro di ambedue il significato di [a] così come, del resto, a quello di una voce femminile emessa nello stesso atteggiamento.

La voce emessa nell'atteggiamento iniziale della suzione – labbra protruse e lingua in avanti – dà luogo alla produzione di una [y] ("u" detta "francese"). In questo atteggiamento la parte anteriore della lingua determina una piccola camera di risonanza fra la lingua stessa, la parte anteriore del palato e gli incisivi superiori mentre la cavità faringea si unisce con il tratto posteriore di quella buccale a formare un'unica e più grande cavità di risonanza. Se, restando la lingua nello stesso atteggiamento, gli angoli della bocca si ritraggono come nel sorriso, il tratto buccale del canale vocale si accorcia, le frequenze delle due prime formanti assumono valori che stanno fra loro nel rapporto approssimativo di 1 a 10 ed al timbro così ottenuto si attribuisce il significato di una [i]. Mantenendo invece le labbra protruse ed arretrando la lingua come nella fase conclusiva della suzione, la parte posteriore del dorso arriva a toccare i denti del giudizio superiori e il canale vocale raggiunge la sua lunghezza massima; il tratto buccale, infatti, si prolunga in avanti fra le labbra protruse mentre quello faringeo si prolunga in alto oltre la superficie di masticazione dei molari superiori. La prima formante del suono così ottenuto si trova nella banda di frequenza della prima formante della [i], la seconda ha una frequenza approssimativamente tripla ed al suono così ottenuto viene attribuito il significato di una [u]. Le v. [i], [a] e [u] corrispondono a tre atteggiamenti estremi della lingua: lingua spinta in avanti ([i] = v. anteriore), lingua allo stato di riposo ([a] = v. media) e lingua retratta ([u] = v. posteriore).

Fra questi atteggiamenti ve ne sono di intermedi, corrispondenti alla [e] ed alla [o], che, a seconda delle lingue, possono essere uno solo come nello spagnolo o due come nell'italiano in cui esistono una [é] ed una [ó] chiuse ed una [è] ed una [ò] aperte. In altre lingue, per esempio nel francese, la situazione delle v. orali, quelle finora esposte, è ancora più complessa in quanto la labializzazione descritta per la [y] dà luogo anche ad altre due v. labializzate, corrispondenti alla [é] ed alla [è], che si scrivono "eu" oppure "oeu" e che però si pronunciano chiuse o aperte a seconda della loro posizione nella parola. Sconosciute all'italiano, le v. labializzate sono invece presenti nei dialetti piemontese, lombardo e ligure. Il francese è anche tipicamente una lingua nella quale si fa uso di v. nasali.

Fig. 11.4.1 Segnale elettroglottografico: (a) forma d’onda, (b) spettro

Fig. 11.4.2 Le sette vocali della lingua italiana sintetizzate per chiarezza di esposizione come se fossero cantate da un basso sulla stessa nota fa₁ (= 87,30 Hz): in alto lo spettrogramma dell’esempio vocale; nella colonna sinistra gli schemi degli atteggiamenti articolatori, ricavati da radiografie; nella colonna destra gli spettri delle sette vocali. Nello spettro di ogni vocale si riconoscono facilmente i gruppi di armonici dall’aspetto di picchi montagnosi, chiamati "formanti". Nello spettrogramma le stesse formanti appaiono come annerimento degli stessi gruppi di armonici. La struttura acustica di una voce reale è quella che appare alla Fig. 11.5.3

Se il velo palatino non occlude completamente l'accesso alle fosse nasali parte della colonna d'aria in vibrazione percorre queste ultime; ne consegue la formazione di formanti nasali e di antirisonanze (= attenuazione di gruppi di armonici) che dànno a queste v. il loro timbro caratteristico. Nel caso del francese le v. nasali sono quattro, quelle che corrispondono, p. es., alla pronunzia delle parole: "fin", "brun", "blanc" e "bon". La banda di frequenza delle formanti è indipendente dalla frequenza della fondamentale; si pensi al fatto che si possono cantare le diverse v. sulla stessa nota (Fig. 11.4.2) così come si può cantare la stessa vocale su note diverse (Fig. 11.4.3).

Il timbro delle v. presenta una grande variabilità già nell'ambito della parlata di uno stesso individuo, ma si differenzia maggiormente quando si prendano in considerazione più persone, soprattutto se di sesso, età e, soprattutto, lingua diversa. Nel canto il sistema fonatorio si atteggia in modi più o meno diversi da quelli impiegati nell'eloquio dando luogo per ogni individuo alla formazione di v. a struttura acustica altrettanto diversa. Un modo comodo per rappresentare graficamente le v. e la loro variabilità è quello di identificarle nel piano cartesiano con punti le cui coordinate sono costituite dalla frequenza della prima formante (asse delle x) e della seconda (asse delle y) di ognuna di esse. I punti si dispongono in "triangoli vocalici" (Fig. 11.5.4(b)), che possono rappresentare a volta a volta sistemi di v. singole o la dispersione di v. dello stesso nome in "aree di esistenza". (Fig. 11.5.4(a)).

11.4.2 Consonanti

L'emissione dei suoni vocalici può essere preceduta, interrotta o seguita da occlusioni o restringimenti del canale vocale, determinati dai movimenti articolatori. Le fasi di apertura e di chiusura di questi movimenti fanno variare i volumi delle cavità di risonanza e di conseguenza della struttura formantica, cioè del timbro, delle vocali che li precedono e li seguono. Tali variazioni si integrano nel nostro orecchio con i silenzi, i rumori o le nasalizzazioni che a volta a volta le accompagnano e sono percepite come consonanti. È possibile chiarirsi empiricamente l'andamento del fenomeno pronunciandole al rallentatore ed esplorando ad orecchio i cambiamenti del timbro vocale e i rumori annessi, in relazione ai movimenti d'occlusione e d'apertura del canale vocale. Le occlusioni e le costrizioni si realizzano per opposizione delle labbra e della lingua con gli incisivi superiori, il palato duro e il velo palatino. Come avviene per le vocali, le c. possibili sono teoricamente infinite in quanto i luoghi e i gradi di occlusione possono variare con continuità. Di fatto ogni lingua ne usa un numero limitato; il che non toglie che la struttura acustica di c. rappresentate con lo stesso segno alfabetico possa variare da lingua a lingua. Le manovre articolatorie dànno luogo, nel maggior numero dei casi, a due serie di consonanti, c. sorde e c. sonore, a seconda che durante la loro pronunzia non si abbia o si abbia emissione di voce. Inoltre, se l'occlusione è completa e seguita da un'apertura brusca (esplosione) si parla di c. momentanee; se invece il canale vocale subisce soltanto una restrizione e l'emissione d'aria può essere prolungata si parla di c. continue.

Fig. 11.4.3 La vocale [é] sintetizzata per chiarezza di esposizione come se fosse cantata da un basso su un accordo di fa maggiore (fa₁, la₁, do_2, fa₂= 87,30; 110; 130,8; 174,7 Hz). Si osservi come i picchi delle formanti cadano sempre nella stessa banda di frequenza mentre al cambiare della nota cambia la loro corrispondenza con il numero d’ordine degli armonici

Consonanti occlusive. S'intendono con questo termine le c. corrispondenti all'occlusione completa del canale vocale. Questa può essere ottenuta per avvicinamento delle labbra (c. bilabiali = [p] e [b]), appoggio dell'apice della lingua agli incisivi ed alle gengive superiori (c. dentali = [t] e [d]) e appoggio del dorso della lingua in luoghi progressivamente arretrati del palato duro e del palato molle a seconda della vocale che deve seguire (c. palatali = [k] e [g] di "gatto"). Nelle prime c. di ognuna delle tre coppie (sorde), si ha interruzione della voce al momento dell'occlusione. Sia nelle c. sorde, sia nelle c. sonore, all'atto del rilascio si manifesta un'esplosione per la quale queste c. sono dette anche esplosive. Lo spettro di queste esplosioni è molto esteso in frequenza, ma l'orecchio tende a percepirne maggiormente la zona di massima intensità; per [p] e [b] questa si aggira sui 1000 Hz (± si4-do5); per [t] e [d] sui 4000 (± si6-do7) mentre per [k] e [g] essa corrisponde alla formante buccale della vocale che segue.

In tedesco le c. occlusive sorde possono essere anche aspirate. Si intendono con questo termine le occlusive caratterizzate da un soffio avvertibile fra l'esplosione e la vocale che segue. In Italia l'aspirazione è tratto caratteristico della pronuncia toscana delle [k] in posizione intervocalica. Ancora in tedesco è normale davanti alle vocali iniziali accentate la c. occlusiva laringale [h] ("haben") che si ottiene chiudendo momentaneamente le corde vocali (colpo di glottide).

Consonanti nasali. Quando all'articolazione di una consonante occlusiva sonora si unisce l'abbassamento del velo palatino si ottiene una c. nasale che partecipa della struttura delle c. per quanto riguarda l'occlusione e delle vocali per quanto riguarda il passaggio dell'aria in vibrazione per le cavità nasali; dalla [b] si ottiene la [m], dalla [d] la [n] e dalla [g] di "giorno" (vedi oltre, C. semiocclusive) la [gn] di "gnocco".

Consonanti laterali. Se la lingua prende contatto soltanto con la parte media dell'arcata degli incisivi superiori e degli alveoli o del palato l'occlusione del canale vocale risulta incompleta. In questo caso la colonna d'aria in vibrazione sfugge ai lati dando luogo alla formazione di c. laterali. In italiano esse sono la [l] e la [gl] di "figlio"; la prima corrisponde al contatto della lingua con incisivi ed alveoli, la seconda a quello con il palato. Il panorama delle lingue presenta una certa varietà articolatoria ed acustica di c. laterali, ma tutte hanno in comune il fatto di avere una struttura acustica simile a quella delle vocali, senza interruzione fra le formanti vocaliche adiacenti e le formanti consonantiche. Nel caso del francese la [l] perde la sonorità quando la consonante contigua è sorda: [supl] di "souple", ecc.

Consonanti vibranti. Tre organi articolatori sono in grado di vibrare: le labbra, la lingua e l'uvula (o ugola), ma nel linguaggio fonetico sono impiegate soltanto le ultime due. La loro vibrazione determina brevissime occlusioni separate da momenti vocalici, percepite come c. vibranti. La c. vibrante italiana tipica é la [r] apicale, realizzata con la lingua sollevata ad occludere il canale vocale ed i margini che toccano tutta l'arcata alveolare superiore mentre l'apice rimane libero di vibrare. Un numero limitato di italiani parla tuttavia con la [r] detta "francese" in quanto propria di questa lingua; essa è ottenuta con la vibrazione dell'uvula appoggiata alla parte posteriore della lingua ([r] uvulare). La realizzazione più comune della [r] consiste in una singola interruzione; la [r] geminata (o doppia = "rr") corrisponde alla successione di più interruzioni. La struttura formantica è simile a quella delle vocali con l'aggiunta di lievi rumori esplosivi corrispondenti al rilascio delle occlusioni. Può essere d'interesse pratico la pronuncia della [r] inglese monovibrante, "flapped [r]", pronunciata appoggiando la parte anteriore del dorso della lingua alla regione alveolare.

Consonanti costrittive o fricative. Sono c. ottenute restringendo il canale vocale in luoghi e modi diversi per produrre un rumore fricativo. Sono le più numerose e la loro descrizione, anche limitandola alle lingue del repertorio musicale più comune, supererebbe i limiti di questa trattazione. Quelle italiane sono le labiodentali [f] e [v], pronunziate appoggiando gli incisivi superiori al labbro inferiore; le alveolari [s] sorda ed [s] sonora ottenute formando un canale stretto e corto fra la parte predorsale della lingua e gli alveoli in modo che la corrente d'aria incida sul margine degli incisivi superiori. Se la strettoia si allarga e il luogo di articolazione si sposta all'indietro si ottengono le prepalatali [sc] e [j] del francese "jour". Quest'ultima, che non fa parte dell'italiano letterario, corrisponde però alla pronuncia toscana della [g] di "gente" quando essa si trova in posizione intervocalica come appunto in "la gente", che diventa "la jente".

consonanti semicostrittive o affricate. Quando si combinano nello stesso punto di articolazione le manovre di un'occlusiva e di una fricativa si formano c. come le due [z], sorda e sonora ([t] +[s]) o come la [c] di "cena", c. sorda e la [g] di "gelo", c. sonora ([t] +[sc] di "scena").