Bioinformatica - Teoria (2006/2007)

Corso a esaurimento

Codice insegnamento
4S00183
Docente
Alejandro Giorgetti
crediti
2
Settore disciplinare
BIO/10 - BIOCHIMICA
Lingua di erogazione
Italiano
Sede
VERONA
Periodo
1° Sem dal 2-ott-2006 al 24-gen-2007.

Per visualizzare la struttura dell'insegnamento a cui questo modulo appartiene, consultare * organizzazione dell'insegnamento

Orario lezioni

Obiettivi formativi

Il corso si pone l'obiettivo di fornire gli strumenti informatici per l'analisi e l'interpretazione dei dati biologici. Si propone inoltre di stabilire le basi teoriche delle possibili applicazioni dei principali strumenti bioinformatici di uso corrente in proteomica, genomica, biochimica, biologia molecolare e strutturale, mettendo lo studente in grado di utilizzare programmi di genomica funzionale, proteomica e genomica strutturale.

Programma

Banche dati in ambito biologico. Le banche dati biologiche primarie, derivate e integrate. Il formato FASTA.


Allineamento di sequenze. Matrici di punteggio PAM e BLOSUM, penalizzazione di inserzioni e delezioni. Algoritmi di allineamento esatti ed euristici. Esempio di algoritmi di allineamento esatti: le matrici cumulative.

Allineamenti multipli. Il programma Clustal W. L’informazione strutturale contenuta negli allineamenti multipli. Profili di sequenza.

L’evoluzione delle proteine. Famiglie e superfamiglie proteiche. Ricerca in banche dati per similarità. Significatività dell’allineamento. I programmi FASTA, BLAST e PSI-BLAST.

Predizione della struttura tridimensionale di una proteina: Modelling comparativo. Relazione quantitativa per la conservazione della struttura primaria e terziaria in proteine omologhe. Il core proteico e le regioni strutturalmente divergenti (SDR). Passaggi per la costruzione di un modello comparativo. Librerie di rotameri. Modelling dei loop.

Calcoli energetici. Campi di forza per il calcolo dell’energia. Accenni ai metodi di minimizzazione energetica.

Qualità di una struttura proteica. Metodi statistici basati su parametri geometrici e di impacchettamento proteico. Applicazione al controllo di un modello proteico.

Predizione della struttura secondaria di una proteina. Proteine globulari: Metodo di Chou Fasman, Helical Wheel Analysis, reti neurali, modelli nascosti di Markov (HMM)

Predizione della struttura tridimensionale di una proteina: Fold recognition. Metodi basati sui profili, metodi di threading, metodi di mapping.

Predizione della struttura tridimensionale di una proteina: Ab initio. Metodi basati sull’assemblaggio di frammenti e potenziali knowledge-based (euristici).

Predizione della funzione proteica a partire dalla struttura. Database di famiglie e banche dati derivate. Classificazione di domini. Predizione di interazioni proteiche: BIND. Metodi knowledge-based per la predizione della funzione.

Ricerca di geni in banche dati. Annotazione di genomi procariotici ed eucariotici. Metodi statistici per la ricerca/annotazione di geni: matrici di punteggio sito-specifiche, Markov Models (MM). Sensibilità e specificità dei metodi. La banca dati ENSEMBL.
Analisi dell’espressione genica: Data mining di dati di espressione:
. estrazione ed analisi di dati da database biologici.
.Data mining di letteratura scientifica.
Progetto di sequenziamento del genoma umano e progetto ENCODE
Annotazione funzionale:
. Gene Ontology (GO).
. ENSEMBL
Microarray: Introduzione alle metodologie e studio delle tecniche per l’analisi dei dati

Modalità d'esame

scritto

Condividi