(I) C.D. Manning, P. Raghavan, P. Raghavan Introduction to Information Retrieval, Cambridge University Press - 2008
(I) A. Rajaraman, J. D. Ullman, Mining of Massive Datasets, 2011
(L) D. Doermann, K. Tombre (Eds.) Handbook of Document Image Processing and Recognition, 2014 (L)
Note:
(L) : Book available in the Engineering library
(I) : Book available in Internet (authors' version)
Obiettivi Formativi
Obiettivo del corso è quello di fornire le conoscenze e capacità necessarie a progettare e sviluppare sistemi che permettano di estrarre conoscenza da grandi quantità di dati con particolar riferimento ad applicazioni nell'ambito di sistemi di analisi di immagini di documenti.
- Conoscenza delle tecniche di base del Data Mining che consentono di modellare grandi
quantità di dati ed estrarne informazione utile.
- Conoscenza delle problematiche relative all'estrazione di informazione ed indicizzazioni di documenti sia testuali che non testuali.
- Conoscenza dei principali modelli e algoritmi in Information Retrieval
- Conoscenza delle principali tecniche per l'estrazione di informazioni da documenti digitalizzati e quindi acquisite prevalentemente sotto forma di immagini.
Prerequisiti
Sono essenziali le conoscenze apprese nei corso di Algoritmi e Strutture Dati. La conoscenza delle basi di Intelligenza Artificiale può risultare utile.
Metodi Didattici
Lezioni frontali, esercitazioni in classe, svolgimento assistito
di elaborati.
Altre Informazioni
Gli esami orali vengono svolti nell'ufficio del docente, dopo aver concluso
l'elaborato.
Modalità di verifica apprendimento
Durante il corso è prevista l'analisi di un articolo scientifico e la sua presentazione ai colleghi durante le lezioni
La verifica finale consta di un elaborato e di una prova orale.
L'elaborato può essere o individuale e basato sullo studio di alcuni articoli scientifici o in gruppo e finalizzato all'implementazione al test e all'analisi di una semplice applicazione nell'ambito degli argomenti del corso.
Nel complesso la verifica deve permettere allo studente di mostrare le capacità di:
- Saper analizzare un problema pratico e progettare una sua soluzione
- Saper applicare le principali tecniche descritte durante il corso tramite implementazione di un modulo software o tramite analisi teorica
- Saper interagire con colleghi per portare avanti lo svolgimento del progetto
- Saper descrivere in modo accurato in forma scritta il lavoro svolto e fornire una appropriata analisi dei risultati
- Saper descrivere metodi ed algoritmi degli argomenti trattati nel corso
Programma del corso
Data Mining
Datawarehouse. Hardware. Disk Organization. Access times
Distributed file system and the new software stack
Map Reduce, Word count, Matrix-Vector and Matrix Multiplication with Map Reduce
The market-basket model . Association rules. Implementation details. Algorithms for computing frequent item-sets and Association Rules.
Improving Apriori: Hash-based filtering. Bloom filters. PCY algorithm, Random sampling, SON algorithm, Apriori with MapReduce-
Finding similar items. Curse of dimensionality. Distance measures.
Document similarity, shingling, min-hashing
Locality sensitive hashing (LSH)
Families of hash functions. LSH for cosine distance. LSH for Euclidean distance.
Curse of dimensionality. Distance measures.
Clustering, Hierarchical clustering, k-means clustering. SOM clustering
BFR algorithm, CURE algorithm. Dimensionality reduction
Document Image Analysis and Recognition
DIAR: preprocessing
Object segmentation
Layout analysis : RLSA, Docstrum, Area Voronoi diagram, XY tree, MXY tree, Reading order detection, classification in layout analysis, page classification/retrieval.
Layout analysis : XY tree, MXY tree, Reading order detection, classification in layout analysis, page classification/retrieval. OCR.
Artificial Neural Networks. Perceptron, Backpropagation
Convolutional neural networks
Document Image Retrieval
Information Retrieval
Introduction to Information Retrieval. Boolean Retrieval
Term vocabulary and postings lists, Inverted files
Vector Space Model
Tokenization, stop-word removal, stemming
Index construction
Index compression
Processing boolean queries
Computing Scores in complete search system - Efficient scoring and ranking, Components of an information retrieval system. Vector space scoring and query operator interaction.
Phrase queries
Wildcard queries.
Orthographic correction.
Performance Evaluation in IR systems
Web mining