mail unicampaniaunicampania webcerca

    Luigi RUSSO

    Insegnamento di BIOSTATISTICA E BIOINFORMATICA

    Corso di laurea magistrale in BIOLOGIA

    SSD: CHIM/03

    CFU: 2,00

    ORE PER UNITÀ DIDATTICA: 16,00

    Periodo di Erogazione: Secondo Semestre

    Italiano

    Lingua di insegnamento

    ITALIANO

    Contenuti

    Modulo di BIOSTATISTICA: Statistica descrittiva Diversi tipi di variabili in Biologia: variabili qualitative e quantitative. Popolazione statistica, campione statistico, unità di campionamento, osservazione. Rappresentazione grafica dei dati: diagrammi a barre, a torta, istogrammi, curve di distribuzione. Indici di tendenza centrale. Indici di dispersione Statistica inferenziale: T-test, Analisi della Varianza, correlazione e regressione lineare. Analisi multivariate. Matrici di dati. Classificazione gerarchica e non gerarchica: indici di similarità e dissimilarità. Criteri agglomerativi. Ordinamento. Analisi dei Componenti Principali. Biplot. Uso ed interpretazione dei risultati di statistiche sia semplici che multivariate. Modulo di BIOINFORMATICA PER L’ANALISI DEI GENOMI: Il corso verterà sullo studio degli aspetti fondamentali dell’analisi dei dati genomici. Verranno approfondite le metodologie omiche, la struttura e l’utilizzo dei dati bioinformatici. Verranno inoltre trattate le principali strategie bioinformatiche per l’identificazione di varianti genetiche e di profili di espressione genica, metilazione e struttura cromatinica.

    Testi di riferimento

    Modulo di BIOSTATISTICA: Whitlock M.C and Schluter, D., 2010. Analisi statistica dei dati biologici. Zanichelli Podani J., 2007 - Analisi ed esplorazione dei dati in ecologia e biologia. Liguori Editore, Napoli. Dispense e materiale didattico distribuito a lezione. Modulo di BIOINFORMATICA PER L’ANALISI DEI GENOMI: 1) Fondamenti di Bioinformatica – Manuela Helmer Citterich, Fabrizio Ferrè, Giulio Pavesi , Chiara Romualdi, Graziano Pesole; prima edizione 2018, Zanichelli; 2) Next Generation Sequencing and Data Analysis – Melanie Kappelmann-Fenzl; 2021, Springer (download disponibile dal catalogo online di ateneo https://unina2.on-line.it/opac/.do).

    Obiettivi formativi

    Modulo di BIOSTATISTICA: lo studente acquisirà conoscenze su: metodologie statistiche semplici (descrittive ed inferenziali) necessarie per l’analisi di sistemi biologici a diversa complessità e statistiche multivariate (classificazione ed ordinamento). Attraverso un approccio pratico-applicativo si vogliono fornire le nozioni di base della biostatistica indispensabili sia per affrontare l’analisi di dati provenienti da una ricerca originale che per leggere in maniera più consapevole i risultati di ricerche pubblicate su riviste scientifiche. Modulo di BIOINFORMATICA PER L’ANALISI DEI GENOMI: L’insegnamento ha lo scopo di fornire allo studente una conoscenza solida dei principi di analisi genomica. L'insegnamento si propone altresì di fornire conoscenze dettagliate sulle metodologie e relative applicazioni per lo studio del genoma e della sua regolazione. Al termine del corso, lo studente sarà in grado di: - conoscere gli strumenti e i metodi bioinformatici per l’analisi dei dati genomici; - proporre strategie di indagine per lo studio dei fenomeni genomici ed epigenetici; - utilizzare banche dati per la ricerca applicata a dati genomici.

    Prerequisiti

    Conoscenze di base della Biologia

    Metodologie didattiche

    Il modulo di BIOSTATISTICA consiste di 18 ore di lezioni frontali con l’ausilio di slides e di 6 ore di esercitazioni numeriche in cui le statistiche illustrate nelle lezioni frontali vengono usate per analizzare dati biologici provenienti dalla letteratura scientifica e dai risultati di ricerche originali. Il modulo di BIOINFORMATICA PER L’ANALISI DEI GENOMI consiste di 16 ore frontali con l’ausilio di diapositive.

    Metodi di valutazione

    Modulo di BIOSTATISTICA: durante il corso viene effettuato un test in progress. Esame scritto finale: l’esame consiste di 3-4 domande contenenti sia esercizi numerici che l’interpretazione dei risultati delle statistiche (semplici e multivariate Il tempo a disposizione varia tra 20 e 30 minuti in funzione della complessità degli esercizi proposti L’esame si considera superato se le risposte corrette superano il 60%. Il voto è dato in 30/30; il valore viene successivamente ponderato in funzione del numero di CFU del modulo. Moduli di BIOINFORMATICA PER L’ANALISI DEI GENOMI e BIOINFORMATICA PER LO STUDIO DELLE PROTEINE: la verifica finale prevede un esame orale teso a verificare la conoscenza delle strategie bioinformatiche per l’analisi dei dati genomici e proteomici. La valutazione finale dell’esame, espressa in trentesimi, tiene conto della capacità di comprensione e apprendimento degli argomenti trattati, l'uso dei termini scientifici adeguati e la capacità di collegamento fra concetti diversi.

    Altre informazioni

    Copie pdf delle diapositive presentate a lezione sono disponibili sullo sharepoint di ateneo, accessibile dalla pagina web del docente.

    Programma del corso

    Modulo di BIOSTATISTICA: Introduzione alla biometria. Le variabili biologiche: definizioni ed esempi. Osservazioni individuali. Unità di campionamento. Popolazione statistica e popolazione biologica. Campione di osservazioni. Rappresentazioni grafiche di dati biologicici. Distribuzioni di frequenza. Curva di distribuzione normale e asimmetrica. Gestione di dati asimmetrici: normalizzazione e standardizzazione. Statistiche di centralità (media, mediana e moda). Statistiche di dispersione (deviazione standard, errore standard, coefficiente di variazione). Statistica inferenziale. Concetto di significatività statistica. Test parametrici e non parametrici. T-test o t di Student. F-test. Analisi della varianza (ANOVA). Interpretazione di risultati di ANOVA ad una ed a più vie. Correlazione e regressione lineare. Introduzione alla statistica multivariata - Indici di similarità e dissimilarità – indici per dati binari: Jaccard, Sorensen. indici per dati quantitativi Distanza Euclidea - matrici di similarità. Classificazione gerarchica e non gerarchica – criteri agglomerativi – legame medio, singolo e completo. Analisi dei Componenti Principali. Interpretazione di un biplot. Modulo di BIOINFORMATICA PER L’ANALISI DEI GENOMI: Dimensione, struttura e funzione del genoma. Meccanismi molecolari di evoluzione dei genomi. Allineamento singolo e allineamento multiplo di sequenze. BLAST. Metodologie di analisi dei genomi: prima, seconda e terza generazione di sequenziamento. Librerie di sequenziamento. Formato dei dati genomici e qualità del sequenziamento. Assemblaggio e annotazione del genoma. Sequenziamento whole-exome e whole-genome. Chiamata di varianti genomiche: identificazione e analisi strutturale/funzionale. Sequenziamento dell’RNA e annotazione di trascritti. Identificazione dei geni differenzialmente espressi e arricchimento funzionale. Analisi dell’epigenoma: 1) array e sequenziamento per lo studio della metilazione del DNA; 2) immunoprecipitazione della cromatina, sequenziamento e riconoscimento di motivi. Concetti di metagenomica. Grandi progetti genomici e banche dati pubbliche.

    English

    Teaching language

    Italian

    Contents

    BIOSTATISTICS: Descriptive statistics. Variables in biology: qualitative and quantitative variables. Statistical population, sample, unit sample, observation. Graphical representation of data: bar charts, pie charts, histograms, distribution curves. Centrality and dispersion indexes. Inferential statistics. T-test, Analysis of Variance, Correlation, Regression. Multivariate analysis. Data matrix. Hierarchical and not hierarchical classification. Similarity and dissimilarity indexes. Agglomerative methods. Principal Component Analysis. Biplot. Use and interpretation of results of statistical analysis. BIOINFORMATICS FOR THE ANALYSIS OF GENOMES: the course will focus on the fundamental aspects of genomic data analysis. It will explore omic methodologies, as well as the structure and use of bioinformatic data. Additionally, the main bioinformatic strategies for identifying genetic variants, gene expression profiles, methylation, and chromatin structure will be covered.

    Textbook and course materials

    BIOSTATISTICS: Whitlock M.C and Schluter, D., 2010. Analisi statistica dei dati biologici. Zanichelli Podani J., 2007 - Analisi ed esplorazione dei dati in ecologia e biologia. Liguori Editore, Napoli. Further teaching material provided by the professor. BIOINFORMATICS FOR THE ANALYSIS OF GENOMES: 1) Fondamenti di Bioinformatica – Manuela Helmer Citterich, Fabrizio Ferrè, Giulio Pavesi , Chiara Romualdi, Graziano Pesole; 1st edition 2018, Zanichelli; 2) Next Generation Sequencing and Data Analysis – Melanie Kappelmann-Fenzl; 2021, Springer (download available from the University online catalogue https://unina2.on-line.it/opac/.do).

    Course objectives

    BIOSTATISTICS:Students will gain knowledge about the simple statistics (descriptive and inferential) needed to analyze biological systems at different scales of investigation, as well as multivariate statistics (classification and ordination). The aim of this course is to convey the basics of biometry to analyze experimental data of original research on biology and to better understand results reported in scientific papers. BIOINFORMATICS FOR THE ANALYSIS OF GENOMES: aim of the course is to provide students with a solid understanding of the principles of genomic analysis. It also seeks to provide detailed knowledge of methodologies and related applications for studying the genome and its regulation. By the end of the course, students will be able to: - understand bioinformatics tools and methods for analysing genomic data; - propose investigation strategies for studying genomic and epigenetic phenomena; - utilise data banks relevant to genomic data.

    Prerequisites

    Basic knowledge in Biology

    Teaching methods

    BIOSTATISTICS consists of 18 hours of lectures with slides and 6 hours of numerical exercises. In the numerical exercise the statistics explained in the lectures are practically applied to biological data derived from both scientific literature and in original research activities. BIOINFORMATICS FOR THE ANALYSIS OF GENOMES comprises 16 frontal hours supported by slides.

    Evaluation methods

    BIOSTATISTICS: During the course a midterm test is carried out. Final examination: one written test: the test is made up of three or four questions concerning both numerical exercise and interpretation of results of statistics applied to environmental data. Time available: between 20 and 30 minutes, depending on the complexity of the exercises The grading is in 30/30; the minimum mark (18/30) is gained if at least 60% of the answers are correct. The value is weighted according to the number of the CFU (3) of the Biometry module. The exam is considered passed (18/30) only if correct answers are more than 60%. BIOINFORMATICS FOR THE ANALYSIS OF GENOMES AND THE STUDY OF PROTEINS: the final assessment includes an oral exam designed to evaluate knowledge of bioinformatic strategies for analysing genomic and proteomic data. The final grade, expressed in thirtieths, considers the ability to understand and learn the topics covered, the use of appropriate scientific terminology and the ability to make connections between different concepts.

    Other information

    PDF copies of the slides from lessons are available on the university Sharepoint, accessible via the teacher's webpage.

    Course Syllabus

    BIOSTATISTICS: Introduction to main topics of Biometry. Biological variables: types and characteristics. Individual observations, sample unit, observation. Statistical and biological population. Sample: definition and dimension. Graphical representation of biological data. Frequency distribution curve. Gaussian or "bell-shaped" curve. Asymmetric distribution. Management of not normally distributed data: normalization and standardization. Descriptive statistics in environmental science. Centrality statistics. Mean, median, mode. Dispersion statistics. Standard deviation. Standard error. Coefficient of Variance. Inferential statistics. Significance in statistics. Null and working hypothesis. Parametric and not parametric tests. T-test . One-way and two-way ANOVA. Output of ANOVA. Interpretation of ANOVA results. Correlation and regression of variable. Pearson correlation coefficient. Use of correlation in biology. Theoretical and practical differences between simple and multivariate statistics similarity and dissimilarity indexes – Indexes for presence/absence data: Jaccard, Sorensen – indexes for quantitative data: Euclidean distance. Resemblance matrix. Hierarchical and not-hierarchical classification. Agglomerative methods – Average, single and complete linkage – plotting dendrograms Principal Component Analysis Interpretation of a Biplot. BIOINFORMATICS FOR THE ANALYSIS OF GENOMES: Dimension, structure and function of the genome. Molecular mechanisms of genome evolution. Single and multiple sequence alignment. BLAST. Methods for genome analysis: first, second and third-generation sequencing. Sequencing library. Format of genomic data and sequencing quality. Assembly and annotation of the genome. Sequencing of Whole-Exome and Whole-Genome. Calling genomic variants: identification and structural/functional analysis. Sequencing of RNA and annotation of transcribed regions. Identification of differentially expressed genes and functional enrichment. Analysis of the epigenome: 1) Array-based and sequencing methods for studying DNA methylation; 2) Chromatin immunoprecipitation, sequencing and recognition of regulatory elements. Concepts of metagenomics. Major genomic projects and public databases.

    facebook logoinstagram buttonyoutube logotype