Data Science per il Patrimonio Culturale

TIPOLOGIA DI CORSO:

CAF - Corso di Alta Formazione

CFU:

24

ANNO ACCADEMICO:

2021/2022

DATA INIZIO:

-

DATA FINE:

-

MODALITà DI EROGAZIONE:

mista

ORARIO DI SVOLGIMENTO DELLE ATTIVITà DI FORMAZIONE:

13.30-18.30

DESCRIZIONE E ARTICOLAZIONE DEL PERCORSO FORMATIVO:

Modulo 1 (10 ore) - Cultural Analytics: il contesto teorico ed epistemologico Il modulo intende fornire un inquadramento teorico e metodologico generale del nuovo campo di studi denominato Cultural Analytics. Vengono affrontati in modo critico la nozione di “dati” in ambito culturale, l’adozione di metodologie quantitative per lo studio dei fenomeni culturali e il concetto di Distant Reading.

Modulo 2 (30 ore) - Strumenti di analisi del linguaggio naturale Introduzione alla Elaborazione del Linguaggio Naturale (Natural Language Processing). Elaborazioni preliminari dei testi, divisione in unità di base (tokenizzazione), raggruppamento di parole in classi (stemming). Analisi grammaticale dei testi mediante Part of Speech Tagging. Lemmatizzazione automatica e presidiata. Analisi sintattica della frase (parsing delle dipendenze e tree banks). Riconoscimento automatico di nomi e altre entità (Named Entity Recognition). Laboratorio 1 (20 ore) - Tecniche di Natural Language Processing Applicazione pratica delle tecniche studiate nel modulo 2 mediante l’uso di software open source.

Modulo 3 (30 ore) - Tecniche e strumenti di Text Mining e Machine Learning Introduzione al Text Mining. Modelli di dati (bag of words) e definizione delle caratteristiche da analizzare. Tecniche di classificazione supervisionata e reti neurali. Tecniche di categorizzazione non supervisionate (clustering gerarchico e PCA). Analisi tematica mediante topic modeling (Latent Semantic Analysis e Latent Dirichlet Allocation). Tecniche basate sulla semantica distribuzionale e sui vettori di parole: Word2Vec. Laboratorio 2 (20 ore): Text Mining e Machine Learning Tecniche di creazione di data sets. Data Cleaning. Applicazione pratica delle tecniche di analisi studiate nel modulo mediante l’uso di software open source.

Modulo 4 (10 ore) - Network analysis Introduzione ai principi della Network analysis. Modellizzare la realtà mediante reti e preparazione dei dati. Metodi di generazione della rete e algoritmi di calcolo di distanza e centralità. Laboratorio 3 (10 ore) - Network analysis Applicazione pratica delle tecniche di analisi studiate nel modulo 4 mediante il software Gephi Modulo 5 (10 ore) - Sentiment analysis Introduzione ai principi della sentiment analysis. Metodi di sentiment analysis. Contesti applicativi dei metodi di sentiment analysis nell’ambito del patrimonio culturale. Laboratorio 4 (10 ore) - Sentiment analysis Applicazione pratica delle tecniche di analisi studiate nel modulo 5

Project work e test finale Project work (60 ore): lavoro individuale o di gruppo (max 3 studenti) da sviluppare sotto la supervisione di un tutor su uno degli argomenti del corso

OBIETTIVO DEL CORSO:

Le campagne di digitalizzazione massiva condotte negli ultimi decenni sia da istituzioni di ricerca e conservazione pubbliche sia da soggetti privati, hanno reso disponibile una ingente mole di dati culturali, che si affiancano alla documentazione secondaria prodotta durante l’attività di ricerca (letteratura grigia, schede prodotta durante uno scavo archeologico) e alle fonti digitali native quali pagine Web, blog, social media. Questo rende possibile applicare i metodi e le tecniche innovative della Data Science anche alla sfera della produzione culturale. Il corso intende fornire una introduzione teorica (moduli formativi) e pratica (sessioni di laboratorio) ai principali tra questi metodi (clustering, topic modelling, word-embedding, machine learning, sentiment analysis e network analysis) e alla loro applicazione per lo studio e la valorizzazione del patrimonio culturale digitale, nonché dare un inquadramento teorico e metodologico generale del nuovo campo della Cultural Analytics. Al termine del percorso gli studenti saranno in grado di progettare, organizzare e applicare workflow e strumenti di data analysis e di adattarli alle esigenze del loro contesto professionale.

I PRINCIPALI ARGOMENTI OGGETTO DEL CORSO:

  • Cultural analytics
  • Natural Language Processing
  • Text Mining e metodi di machine learning
  • Sentiment analysis
  • Network analysis

OCCUPABILITÀ :

La rappresentazione e l’analisi di dati e di documenti digitali è un compito strategico sia nel contesto della ricerca scientifica, sia in quello industriale/produttivo e istituzionale. Si tratta di competenze utili per inserirsi o qualificarsi nei contesti lavorativi più innovativi nel settore dei beni culturali: - istituzioni pubbliche e private che detengono e valorizzano i patrimoni (musei, archivi storici e aziendali, biblioteche, istituti culturali, centri di documentazione) - PMI operanti nel settore della creazione di servizi per il patrimonio culturale - Pubbliche amministrazioni deputate a sovrintendere al patrimonio (soprintendenze, istituti centrali del MIBACT etc.). Le competenze e conoscenze acquisite nel corso, tuttavia, sono spendibili anche in altri settori professionali, sia nell’ambito della pubblica amministrazione digitale sia in quello delle aziende proiettate nella dimensione di “Industria 4.0” che necessitano di figure quali analisti di analisti di Big Data, esperti di knowledge management, esperti di comunicazione e marketing digitale.

REQUISITI DI AMMISSIONE:

Il corso si rivolge a Laureati Triennali e Magistrali negli ambiti delle Scienze Umane, Scienze dei beni culturali e Scienze sociali interessati ad acquisire competenze di Data Science e Data Mining, con particolare riferimento all’analisi di dati di tipo culturale.

DISCENTI, NUMERO MINIMO ISCRITTI :

10

ALTRE UNIVERSITÀ O ENTI DEL CENTRO DI ECCELLENZA DTC LAZIO COINVOLTE:

Dipartimento di Lettere e Culture Moderne – Sapienza Università di Roma

LABORATORI DEL DTC COINVOLTI:

  • CLaK, centro ricerche interdisciplinare su cognizione, linguaggio e conoscenza, Università di Roma Tor Vergata, Responsabile Prof. Fabio Massimo Zanzotto
  • Laboratorio digitalizzazione, metadatazione e produzione multimediale - Digital curation, Centro di Ricerca DigiLab Sapienza, Responsabile Prof. Gianfranco Crupi

QUOTA DI ISCRIZIONE:

500

BORSE FINANZIATE DAL CENTRO DI ECCELLENZA:

10

DIRETTORE/RESPONSABILE:

Fabio Ciotti

SEDE DI SVOLGIMENTO DEL CORSO:

Dipartimento di Studi letterari, Filosofici e di Storia dell’arte - Università di Roma "Tor Vergata"

FACOLTA':

Lettere e Filosofia

CONTATTI:

Fabio Ciotti

EMAIL:

fabio.ciotti@uniroma2.it

SITO WEB:

in aggiornamento

ALTRE INFORMAZIONI: