Vorrei riportare una ricerca condotta tramite analisi automatica del testo da Maurizio Lana e Terri Mannarini per due motivi principali. In primo luogo perchè utilizza come fonte di informazione i quotidiani, in secondo luogo perchè offre lo spunto per alcune riflessioni sulla modalità di interpretazione di dati che come vedremo devono essere considerati non strutturati.
La selezione dei dati.
L'analisi dei quotidiani è in questo caso soltanto una fonte di informazione fra le molteplici usate (focus group, interviste individuali e telefoniche) per la triangolazione dei dati e tale utilizzo pone alcune problematiche nella selezione dei dati, infatti ricercando nell'archivio di un quotidiano, tramite i campi "argomento" e "note", si possono trovare parole che descrivono il contenuto dell'articolo e che possono rappresentarne in modo distorto il contenuto e portare ad un bias sistematico nella selezione dei testi. Per ovviare a questo problema, bisogna estrarre dall'archivio gli articoli tramite una ricerca sul full-text di parole semplici e di uso generale connesse al tema della ricerca, in questo caso sono stati selezionati tutti gli articoli contenenti la parola TAV, e poi escludere quelli che pur menzionando la parola semplice scelta lo fanno in modo aspecifico.
Ad esempio in un articolo della Repubblica si legge "mentre il governo pensa a progetti faraoinici, come la TAV in Val di Susa, il resto della rete ferroviaria è lasciato in stato di totale abbandono". In questo caso, la Tav in Val di Susa è privo di significato specifico, infatti si sarebbe potuto utilizzare ugualmente un'espressione alternativa ad sempio "il ponte sullo stretto" senza cambiare il significato dal periodo.
Fonti testuali non strutturate
Con la definizione di fonte non strutturata ci si vuole riferire al fatto che i quotidiani con i loro articoli non sono un database, ossia non hanno subito un lavoro di editingi e di (ri)strutturazione finalizzato al loro impiego nella ricerca. Per tale motivo sono presenti una serie di ambiguità, come ad esempio polimorfi e omografie, costanti con le quali si scontra un'analisi automatica del testo, ossia termini che pur essendo scritti nel medesimo modo hanno significati differenti (principi vs princìpi) oppure termini che se pur scritti in modo differente hanno il medesimo significato semantico ma un differente significato pragmatico. Ad esempio per riferirsi alla persona "Silvio Berlusconi" si può utilizzare tale espressione, soltanto Sivlio, soltanto Berlusconi, lo si può chiamare Premier, oppure Cavaliere, ma anche con altre espressioni complesse come "Guida del Popolo delle Libertà". Tale questione pone una scelta fondamentale al ricercatore, infatti può ricondurre tali espressioni ad un unico lemma "Silvio Berlusconi" e in questo caso ridurre la dispersività dei dati, oppure mantenere una informazione che per la propria ricerca potrebbe considerarsi preziosa ma che rischia di rendere i dati difficilmente interpretabili (infatti ogni modo di riferirsi a "Silvio Berlusconi" contiene in se una informazione aggiunta, derivante dallo scopo per il quale è stata usata quell'espressione invece di un altra).
Tecniche utilizzate
1) Selezione articoli con freq. TAV > 2
2) Eliminazione parolevuote (congiunzioni, preposizioni, articoli etc..)
3) Eliminazione parole minori di 4 caratteri
4) Eliminazione dei numeri
6) E' stata effettuata una lemmatizzazione di tipo grammaticale (accorpando sotto un'unica parola tutte le forme di un verbo, aggettivo, singolari e plurali) ma non una lemmatizzazione di tipo semantico (ossia non sono stati ricondotti i sinonimi ad un termine soltanto).
Tale operazioni sono messe in atto per ridurre il numero di forme grafiche analizzate tramite il pacchetto statistico Spad.t
Le analisi statistiche effettuate sono state:
1) Analisi delle corrispondenze che ha portato all'individuazione di 4 fattori.
2) Analisi delle corrispondenze binarie su 5 variabili (Unità di contesto) (prima pagina, politica interna, politica esterna, locale, cronaca di Torino).
Da tali analisi è emersa una stretta relazione fra sezione di giornale presa in esame e fattore individuato, in altre parole, ogni fattore era determinato da una sezione del giornale. Esula da questo post, l'interpretazione analitica dei dati a partire dall'analisi di quali lemmi sono caratteristici di ogni fattore. Una interpretazione generale dei risultati fa invece emergere come sui giornali il problema del movimento no-Tav sia stato affrontato prevalentemente come una questione astratta di politica a livello nazionale, per via degli scontri fra posizioni differenti all'interno della sinistra, e che il focus dell'attenzione mediatica era principalemente sugli scontri e le proteste dei cittadini, inquadrando la situazione come un problema di ordine pubblico senza proporre invece elementi concreti, come le alternative al progetto tav, i costi dell'opera, i benefici, l'impiatto sull'ambiente e sullo sviluppo economico.
Tale analisi ha quindi permesso di rilevare alcune dimensioni semantiche che hanno fornito elementi di conoscenza importanti, ma non sufficienti per determinare l'oggetto di studio. La scelta di lavorare su un corpus molto ampio, composto da un gran numero di articoli distribuiti in un lungo arco di tempo ha permesso di osservare il fenomeno "dall'alto" piuttosto che "dall'interno", offrendo però un risultato sfocato che dovrà essere indagato con ulteriori analisi (interviste e focus group) che potranno però sicuramente beneficiare delle informazioni ottenute da questa ricerca preliminare.
L'analisi testuale dei quotidiani come fonte di informazione non strutturata. Il caso del movimento no-TAV in Valsusa di Maurizio Lana e Terri Mannarini [I discorsi dei media e la psicologia sociale, a cura di Bruno M. Mazzara Carrocci 2008]