La statistique concerne l’élaboration et l’emploi de méthodes mathématiques et informatiques pour la collecte, l’analyse et l’interprétation de données visant à soutenir la recherche scientifique, la prise de décision éclairée et la gestion des risques. Elle fait appel à un large éventail d’outils, allant de la théorie des probabilités aux techniques de calcul intensif sur ordinateur. Parmi les principaux domaines de recherche des statisticiens du réseau de l’ISM, notons
La recherche statistique est motivée en grande partie par des collaborations interdisciplinaires. Elle trouve des applications dans de nombreux domaines tels la biologie, les sciences de l’environnement, la finance et l’assurance, les sciences de la santé, l’hydrologie, le marketing et les sciences sociales. Avec l’abondance d’ensembles de données complexes et de grande taille émanant entre autres des médias sociaux et des processus numériques, des transactions financières, de l’astronomie, de la génomique, de la météorologie ou de la mégascience comme le grand collisionneur de hadrons, le traitement et l’analyse de données volumineuses est un enjeu majeur de la statistique moderne.
Le programme de statistique fournit aux étudiants gradués l'occasion d'étudier dans ces deux domaines importants de la statistique moderne. Les cours offerts dans ce programme permettront aux étudiants de 2e et 3e cycles de bien se familiariser avec les bases de la statistique mathématique, de la théorie de la décision et la statistique appliquée. De plus, quelques cours sont offerts pour initier les étudiants à des sujets de pointe dans ces domaines.
Ce programme est ouvert à tous les étudiants ayant une base solide en calcul différentiel et intégral, statistique mathématique, analyse numérique ainsi qu'en probabilité (le tout au niveau du 1er cycle). Pour acquérir une bonne formation en théorie de la décision et en statistique mathématique, nous pensons que les étudiants devraient prendre un cours de base en mesure et intégration (pour les étudiants au 3e cycle) et au moins trois cours aux niveaux intermédiaires et avancés.
This course is an introduction to statistical inference for parametric models. The following topics will be covered:
1. Distribution of functions of several random variables (distribution function and change of variable techniques), sampling distribution of mean and variance of a sample from Normal distribution.
2. Distribution of order statistics and sample quantiles.
3. Estimation: unbiasedness, Cramér-Rao lower bound and efficiency, method of moments and maximum likelihood estimation, consistency, limiting distributions, delta-method.
4. Sufficiency, minimal sufficiency, completeness, UMVUE, Rao-Blackwell and Lehman-Scheffe theorems.
5. Hypothesis-testing: likelihood-ratio tests.
6. Elements of Bayesian estimation and hypothesis-testing.
Text: Introduction to Mathematical Statistics (6th, 7th or 8th Edition), by R.V. Hogg and A.T. Craig, Prentice Hall Inc., 1994. Recommended reading: (for problems, examples etc) Statistical Inference (2nd Edition), by G. Casella and R. L. Berger, Duxbury, 2002. Evaluation: Assignments (4), Midterm exam, Final exam.
Multivariate normal and chi-squared distributions; quadratic forms. Multiple linear regression estimators and their properties. General linear hypothesis tests. Prediction and confidence intervals. Asymptotic properties of least squares estimators. Weighted least squares. Variable selection and regularization. Selected advanced topics in regression. Applications to experimental and observational data.
Distribution theory, stochastic models and multivariate transformations. Families of distributions including location-scale families, exponential families, convolution families, exponential dispersion models and hierarchical models. Concentration inequalities. Characteristic functions. Convergence in probability, almost surely, in Lp and in distribution. Laws of large numbers and Central Limit Theorem. Stochastic simulation.
Subjective probability, Bayesian statistical inference and decision making, de Finetti’s representation. Bayesian parametric methods, optimal decisions, conjugate models, methods of prior specification and elicitation, approximation methods. Hierarchical models. Computational approaches to inference, Markov chain Monte Carlo methods, Metropolis—Hastings. Nonparametric Bayesian inference.
General introduction to computational methods in statistics; optimization methods; EM algorithm; random number generation and simulations; bootstrap, jackknife, cross-validation, resampling and permutation; Monte Carlo methods: Markov chain Monte Carlo and sequential Monte Carlo; computation in the R language.
Conditional probability and Bayes’ Theorem, discrete and continuous univariate and multivariate distributions, conditional distributions, moments, independence of random variables. Modes of convergence, weak law of large numbers, central limit theorem. Point and interval estimation. Likelihood inference. Bayesian estimation and inference. Hypothesis testing.
Étude du « bootstrap ». Estimation du biais et de l'écart-type. Intervalles de confiance et tests. Applications diverses, incluant la régression et les données dépendantes. Étude du « jackknife », de la validation croisée et du sous-échantillonnage.
Survol de méthodes d'analyse couramment utilisées en biostatistique (théorie et application). Modèles linéaires généralisés et équations d'estimation.
Analyse de survie paramétrique ou semiparamétrique. Introduction à l'inférence causale et la théorie semiparamétrique.
Techniques descriptives. Processus stationnaires. Meilleure prévision linéaire. Modèles ARMA, ARIMA et modèles saisonniers. Estimation et prévision dans les ARMA. Éléments d’analyse spectrale. Modèles ARCH et GARCH.
Espérance conditionnelle. Prédiction. Modèles statistiques, familles exponentielles, exhaustivité. Méthodes d'estimation: maximum de vraisemblance, moindres carrés etc. Optimalité: estimateurs sans biais à variance minimum, inégalité de l'information. Propriétés asymptotiques des estimateurs. Intervalles de confiance et précision. Éléments de base de la théorie des tests. Probabilité critique, puissance en relation avec la taille d'échantillon. Relation entre tests et intervalles de confiance. Tests pour des données discrètes.
Étude des distributions échantillonnales classiques: T2 de Hotelling; loi de Wishart; distribution des valeurs et des vecteurs propres; distribution des coefficients de corrélation. Analyse de variance multivariée. Test d'indépendance de plusieurs sous-vecteurs. Test de l'égalité de matrices de covariance. Sujets spéciaux.
Nombre aléatoire. Simulation de lois classiques. Méthodes d'inversion et de rejet. Algorithmes spécifiques. Simulation des chaines de Markov à temps discret et continu. Solution numérique des équations différentielles ordinaires et stochastiques. Méthode numérique d'Euler et de Runge-Kutta. Formule de Feynman-Kac. Discrétisation. Approximation faible et forte, explicite et implicite. Réduction de la variance. Analyse des données simulées. Sujets spéciaux.
Théorie et application des méthodes classiques d'analyse de données multivariées : analyse en composantes principales, réduction de la dimensionnalité, analyse des correspondances binaire et multiple, analyse discriminante, classification hiérarchique, classification non hiérarchique, choix optimal du nombre de classes. Initiation aux réseaux de neurones artificiels. Utilisation de logiciels statistiques pour le traitement des données.
Statistical analysis of time series in the time domain. Moving average and exponential smoothing methods to forecast seasonal and non-seasonal time series, construction of prediction intervals for future observations, Box-Jenkins ARIMA models and their applications to forecasting seasonal and non-seasonal time series. A substantial portion of the course will involve computer analysis of time series using computer packages (mainly MINITAB). No prior computer knowledge is required.
This course is an introduction to statistical learning techniques. Topics covered include cross-validation, regression methods, classification methods, tree-based methods, introduction to neural networks, unsupervised learning.
This course will cover selected topics from asymptotic theory of statistical inference, i.e., properties of statistical inference procedures when sample-size is large. Needless to say, these properties are obtained via taking limit as sample-size goes to infinity. Even in moderately complex statistical models the large-sample properties, such as variance of an estimator, are less cumbersome than the exact ones, i.e., those for a fixed sample-size. Both parametric and non-parametric framework will be considered. Topics to be covered include:
Functional Delta-method, U-statistics, M-estimators, Rank statistics, Local asymptotic normality (LAN).
This course is an introduction to reinforcement learning techniques. It requires extensive programming with the R language. Topics covered include: Multi-armed bandit problem, Markov Decision Problems, Dynamic Programming, Monte-Carlo solution methods, Temporal difference methods, Multi-period Approximation methods, Policy gradient.
This course is an introduction to basic experimental designs and analysis of linear statistical models related to them. The following topics will be covered:
1. Review of estimation and hypothesis-testing in Normal error-based linear models.
2. Analysis of completely randomized design (CRD), randomized complete block design (RCBD), balanced incomplete block design (BIBD), Latin Square design (LSD), Graeco-Latin Square design (GLSD).
3. Factorial experiments: 2-factor and 3-factor designs, confounding, fractional replication.
4. Response-surface models.
Text: Design and Analysis of Experiments, 10th Edition, by Douglas C. Montgomery (John Wiley). Evaluation: Assignments (4), Midterm exam, Final exam.
Exponential families, link functions. Inference and parameter estimation for generalized linear models; model selection using analysis of deviance. Residuals. Contingency table analysis, logistic regression, multinomial regression, Poisson regression, log-linear models. Multinomial models. Overdispersion and Quasilikelihood. Applications to experimental and observational data.
Stationary processes; estimation and forecasting of ARMA models; non-stationary and seasonal models; state-space models; financial time series models; multivariate time series models; introduction to spectral analysis; long memory models.
Sampling theory (including large-sample theory). Likelihood functions and information matrices. Hypothesis testing, estimation theory. Regression and correlation theory.
Principes de l’analyse bayésienne; loi à priori et à postériori, inférence statistique et théorie de la décision. Méthodes computationnelles; méthodes de Monte Carlo par chaînes de Markov. Applications.
Rappels sur la régression linéaire multiple (inférence, tests, résidus, transformations et colinéarité), moindres carrés généralisés, choix du modèle, méthodes robustes, régression non linéaire, modèles linéaires généralisés.
Tableaux de contingence. Mesures d'association. Risque relatif et rapport de cote. Tests exacts et asymptotiques. Régression logistique, de Poisson. Modèles log-linéaires. Tableaux de contingence à plusieurs dimensions. Méthodes non paramétriques.
Principes d'inférence : estimation ponctuelle, distribution des estimateurs, test d’hypothèse, région de confiance. Approche bayésienne. Méthodes de rééchantillonnage. Estimation non paramétrique. Applications modernes de la statistique.
Analyse en composantes principales. Analyse des corrélations canoniques et régression multidimensionnelle. Analyse des correspondances. Discrimination. Classification. Analyse factorielle d'opérateurs.
Fonctions de variables aléatoires, fonction génératrice des moments, quelques inégalités et identités en probabilité, familles de distributions dont la famille exponentielle, vecteurs aléatoires, loi multinormale, espérances conditionnelles, mélanges et modèles hiérarchiques. Théorèmes de convergence, méthodes de simulation, statistiques d'ordre, exhaustivité, vraisemblance. Estimation ponctuelle et par intervalles : construction d'estimateurs et critères d'évaluation, méthodes bayésiennes. Normalité asymptotique et efficacité relative asymptotique.