Introduzione al corso
Organizzazione record e file
Alberi B, hash in memoria secondaria
Indici invertiti
Basi di dati di documenti e DL
Esercitazioni
Document Engineering
Datawarehouse e DataMining
Ottimizzazione query
(B) H.Garcia-Molina, J.D. Ullman, J. Widom. Database systems the complete book. Prentice-Hall International - 2002
(I) C.D. Manning, P. Raghavan, P. Raghavan Introduction to Information Retrieval, Cambridge University Press - 2008
(B) I. Witten, A. Moffat, T.C. Bell Managing Gigabytes, Van Nostrand Reinhold – 1999
(I) W. Y. Arms Digital Libraries, MIT press - 2000
(B) M Lesk, Understanding Digital Libraries Mk
(I) A. Rajaraman, J. D. Ullman, Mining of Massive Datasets, 2011
Nota:
(B) indica che il libro è presente nella biblioteca di S. Marta
(I) indica un libro scaricabile da Internet
Materiale reso disponibile agli studenti tramite il sito
e-l.unifi.it
Obiettivi Formativi
L’obiettivo del corso è di fornire conoscenze sulla tecnologia delle Basi di Dati e sulle principali applicazioni emergenti.
Al termine del corso sarà possibile analizzare criticamente e
sviluppare algoritmi e metodi per la gestione efficiente di
grandi quantità di informazioni.
Prerequisiti
Nozioni apprese nei corsi di primo livello di Basi di Dati e Fondamenti di Informatica II.
Metodi Didattici
Lezioni frontali, esercitazioni in classe, svolgimento assistito
di elaborati
Altre Informazioni
Appelli Esame 2012/2013 Tecnologia delle Basi di Dati
Gli esami orali vengono svolti nell'ufficio del docente, dopo aver concluso l'elaborato.
Modalità di verifica apprendimento
Studio e presentazione di articolo (lavoro individuale) 15 %
Elaborato (gruppi di 2 persone) 65 %
Orale (individuale) su argomenti selezionati 20 %
Programma del corso
Introduzione (0.1)
Architettura di un DBMS
Altri ``tipi'' di basi di dati
Il ruolo dell'informazione testuale
Hardware (0.2)
Caratteristiche dispositivi di memorizzazione secondaria
Ottimizzazioni
Guasti nei dischi
Algoritmo di merge-sort
Gestione della memoria permanente (0.3)
Rappresentazione di dati elementari
Tipi di record
Caratteristiche blocchi in memoria secondaria
Operazioni su file
Gestione dei buffer
Indicizzazione di dati (0.4)
Organizzazione seriale e sequenziale
Indici densi e sparsi
Gestione chiavi duplicate
Inserimento e cancellazione
Attributi non chiave (indici secondari)
Alberi di ricerca in memoria secondaria (0.3)
Alberi B+
Alberi B
Metodi hash in memoria secondaria (0.4)
Hash esterno
Hash dinamico
Chiavi di accesso multiple (0.3)
Query multidimensionali in SQL
Organizzazione ad albero: R-tree, Quad-tree
Organizzazioni ''hash-like'': Grid file, Partitioned hash table
Indici invertiti (0.5)
Applicazioni per Information Retrieval
Costruzione indice invertito
Ottimizzazioni per interrogazioni booleane
Etichettatura e stemming
Query di frasi
Interrogazioni con wild-card (indice permutato, indice di bi-gram)
Compressione indice invertito (0.3)
Compressione dei puntatori
Compressione del dizionario
Scoring in spazi vettoriali (0.2)
Ricerche parametriche e di campi
Peso tf-idf
Similarità del coseno
Calcolo efficiente del coseno
Compressione di testo (0.5)
Modelli di probabilità
Algoritmi di codifica
Modelli basati su simboli: PPM
Modelli basati su dizionari: LZW
Analisi di immagini di documenti (0.4)
Acquisizione e memorizzazione
Pre-processing
Analisi del layout
Optical Character Recognition
Biblioteche digitali (0.2)
Recupero di immagini di documenti (0.4)
Indicizzazione di parole
Indicizzazione del layout
Metodi basati sul riconoscimento
Metodi non basati sul riconoscimento
Esercitazioni (1)
Ottimizzazione di query (1)
Algoritmi per ordinamento esterno
Algoritmi per Select e Join
Algoritmi per proiezioni
Operatori aggregati e outer join
Euristiche in query optimization
Data warehouse (1)
Modelli dati e operatori
Implementazione di un warehouse
Data mining
Web data mining
Document Engineering (1)
Editoria elettronica
Documenti elettronici: PDF, Latex, XML
Trasformazione XSLT
NOTA:
tra parentesi sono indicati i CFU per ogni argomento