Thèmes de recherche

Les codes de calcul simulant des phénomènes variés profitent en permanence du développement des capacités de calcul des processeurs. Mais ce gain en réalisme se paye en difficulté à appréhender le comportement du code développé ceci pour deux raisons concourantes.

Tout d'abord, le temps calcul d'un code peut rapidement être prohibitif, en dépassant la journée, ce qui rend son exploration délicate.

D'autre part, les performances des codes se rapprochant de la réalité, leur compréhension est tout aussi délicate que celle du réel, avec de très nombreux paramètres en jeu dont les effets sont difficiles à appréhender. Par analogie avec la thermodynamique, on pourrait dire que tout en connaissant précisément tous les comportements microscopiques du phénomène étudié, on a du mal à en tirer des quantités macroscopiques représentant globalement le comportement du simulateur.

Ainsi, de nombreuses questions simples d'énoncé restent sans réponse satisfaisante et partagée, comme la détection de paramètres influents ou l’influence de la méconnaissance de certains paramètres sur les prévisions effectuées.

Les problèmes seront résolus par l'étude approfondie de deux types d'objets, les métamodèles et les plans d'expériences numériques, déclinés au travers des thèmes de recherche suivants :

Criblage et analyse de sensibilité

L'analyse de sensibilité est l'étude des incertitudes à travers un code de calcul. On cherche à identifier les paramètres d’entrée influents sur la réponse du simulateur, et si possible quantifier ces influences.

Les méthodes sont empruntées à différents domaines des probabilités et des statistiques. Bien que pour la plupart coûteuses, ces méthodes peuvent être utilisées très largement par l’intermédiaire de métamodèles.

Les méthodes de criblage permettent de se faire une idée des sensiblités à moindre coût et reposent essentiellement sur des plans d'expériences (voir paragraphe suivant).

L’analyse de sensibilité est un outil générique et peut être utile lors de toutes les étapes de l’exploitation d’un code de calcul :

  • modélisation : les paramètres identifiés comme non influents peuvent être ignorés, le modèle s’en trouve avantageusement simplifié.
  • design : l’analyse de sensibilité permet de calibrer les paramètres d’entrée compte tenu de contraintes (par exemple de fiabilité) sur la réponse du simulateur.
  • prédiction : dans une optique d’amélioration des prédictions / réduction des risques, l’analyse de sensibilité permet d’identifier les paramètres sur lesquels concentrer les études, les campagnes de mesure...
  • optimisation : l’analyse de sensibilité fournit une connaissance indirecte de la "mécanique interne" du simulateur. Cette information peut être valorisée dans une procédure d’optimisation.

↑ haut de page

Plans d'expériences numériques

Le simulateur est approché par un métamodèle qui est construit à partir d’"expériences" numériques (ou runs) sur différents jeux de données dans lesquels les variables d’environnement, de contrôle, voire de simulation, sont fixées à différents niveaux : c’est le plan d’expériences numériques.

On distinguera deux types de plans d'expériences numériques, les plans initiaux, qui peuvent être contraints, et les plans itératifs, ces derniers n’étant bien souvent qu’une adaptation des premiers.

Les plans initiaux

Il existe de nombreux types de plans d’expériences, certains d’entre eux n’étant pas forcément bien adaptés aux expériences numériques. Parmi ces derniers, on citera les plans d’expériences standard, ou tabulés, dont le nombre de niveaux par dimension est en général réduit et qui postulent, en outre, que le modèle est linéaire (en les coefficients). Ces plans ont pour but d’explorer localement un phénomène. Dans cette même catégorie, on placera aussi les plans dits optimaux, construits à partir d’une population candidate à l’aide d’algorithmes d’échange.

Les matrices qui paraissent les plus appropriées à l’exploration des grands domaines sont les plans que l’on regroupe dans la catégorie des Space Filling Designs (SFD). Il en existe également de différents types. Ainsi, des plans tabulés tels que les plans de Doehlert, dont la construction est basée sur un simplexe, peuvent entrer dans cette catégorie. Les plus notables sont cependant :

  • Les hypercubes latins, qui privilégient l’uniformité des projections des points sur les axes.
  • Les OA (tables orthogonales)
  • Les matrices uniformes
  • Les suites à faible discrépance.
  • Les algorithmes de « distances » (WSP, par exemple)
  • Les algorithmes basés sur des concepts physiques (entropie, répulsion, etc.).

Les suites à faible discrépance, déterministes, sont nombreuses (Van der Corput, Hammersley, Halton, Sobol’, Niederreiter, etc.), mais souffrent d’artéfacts en grandes dimensions.

Une voie de recherche prometteuse, pour la création de SFD, réside dans la construction d’algorithmes basés sur des processus stochastiques.

Les plans contraints

Les techniques de construction de plans évoquées ci-devant devront pouvoir prendre en compte des contraintes liées à la forme du domaine. On pensera par exemple à la résolution des problèmes d’optimisation sous contraintes. De la même façon, il faudra être capable de prendre en compte une dépendance a priori entre variables, et des zones d'exclusion dans lesquelles le modèle «physique» n'est pas valable, voire n'a plus de sens.

Les plans itératifs

La résolution des problèmes inverses se ramène en général à la résolution d’un problème d’optimisation. L’approche consiste, dans un premier temps, à explorer le domaine d’intérêt par un SFD. Un métamodèle est calculé, auquel est associée une incertitude. D’une part, à partir du métamodèle, on identifie, par exemple au moyen d’une fonction de vraisemblance, le (ou les) minimum(s) possible(s). D’autre part, en se basant sur la connaissance de l’incertitude qui est associée à ce métamodèle, on met en évidence d’autres zones de minimums potentiels. Les régions de minimums possibles et potentiels ainsi identifiées font l’objet d’une exploration plus précise par l’ajout de nouveaux points qui enrichissent le plan initial, constituant ainsi une approche séquentielle par plans d’expériences itératifs.

↑ haut de page

Méta-modèles et optimisation

Les méta-modèles usuels sont constitués de modèles déterministes définis par des familles de fonctions comme les polynômes, polynômes trigonométriques, fonctions cassures type polyMARS, réseaux de neurones, etc. ou des modèles probabilistes comme le krigeage. Ces derniers sont bien adaptés pour fournir un ordre de grandeur de l'erreur de modèle, ce qui est d'un intérêt particulier ici.

En effet une difficulté propre à l'utilisation d'un méta-modèle est qu'un optimum d'un méta-modèle donne seulement une indication sur une zone d'optimum pour la fonction objectif correspondante. Autrement dit, il est nécessaire de prendre en compte l'erreur de modélisation dans la procédure d'optimisation avec méta-modèle. Un exemple est fourni par l'algorithme EGO avec un méta-modèle de type krigeage.

Le terme d'optimisation est ici assez vague, et peut concerner plusieurs types de problème :

  • optimisation de réponses (sorties de code)
  • calage de facteurs (entrées de code)
  • optimisation en présence d'incertitudes

Le premier type concerne les problèmes d'optimisation "standard".

Le deuxième est aussi connu sous le nom de calibration, ou problème inverse. Il répond au problème suivant : connaissant des valeurs réelles de la (ou des) réponse(s), peut-on retrouver les valeurs des facteurs qui permettent de retrouver cette information ? Ces problèmes sont souvent mal posés, et dans le meilleur des cas seule une zone de confiance peut être fournie.

Le troisième type relève de la prise en compte dans l'optimisation des variables non contrôlées qui sont à l'origine d'une source d'aléa. Les fonctions objectifs sont alors des fonctions aléatoires, et l'optimisation ne porte plus directement sur les fonctions objectifs mais sur la valeur moyenne, la variance, des quantiles, etc. Des contraintes de fiabilité peuvent également être intégrées.

↑ haut de page

Estimation de quantiles

Dans le cadre de calculs effectués avec des codes numériques ayant comme entrées des paramètres incertains, on souhaite garantir le fait que les paramètres de sortie ne dépassent pas un certain seuil (imposé par exemple par des critères de sûreté). Il s’agit donc d’estimer (de façon robuste) un quantile (par exemple à 95%) sur un paramètre de sortie, en réalisant un nombre limité de calculs du code numérique (industriel) complexe. On s’intéresse aussi à fournir un niveau de confiance pour l’estimation de ce quantile compte tenu du nombre réduit de calculs réalisés.

Plusieurs stratégies existent dans ce domaine comme :

  • estimation de quantile sur un n-échantillon (quantile empirique, de Wilks, empirique avec bootstrap)
  • estimation de quantile par variable de contrôle
  • estimation de quantile par stratification contrôlée
  • estimation de quantile avec échantillonnage préférentiel.

Par ailleurs, si le code de calcul est approximé par une surface de réponse, on sait que la solution consistant à estimer le quantile empirique à l’aide de la surface de réponse conduit à une sous estimation du quantile.

↑ haut de page

Krigeage et approches bayésiennes

Le krigeage, introduit par Matheron en 1969 dans le domaine de la géostatistique, est largement utilisé aujourd’hui en tant que méta-modèle pour modéliser des variables de sortie de codes de calcul numérique, gourmand en temps calcul. En tant que méthode d’interpolation, le krigeage convient à ce contexte où il n’y a pas d’erreur expérimentale. De plus, il est intéressant car il permet d’associer à chaque point de l’espace une prévision et son incertitude.

Concrètement, la réponse est modélisée par un processus gaussien. La moyenne traduit la tendance générale de la réponse, la structure de covariance caractérise sa régularité. Le krigeage est alors le meilleur prédicteur non biaisé, et linéaire par rapport aux observations.

En pratique les paramètres du modèle (paramètres de tendance et de covariance) sont estimés par ML (Maximum Likelyhood) ou par LOO (Leave one out). En grande dimension, le faible nombre d’observations rend l’identification des paramètres difficile, principalement pour les paramètres de covariance. Depuis quelques années des approches bayésiennes ont été développées car elles permettent notamment de s’affranchir de l’estimation. La difficulté est cependant reportée sur la caractérisation de la loi a priori pour les paramètres du modèle. Il faut souligner l’importance de l’information « métier » dans la détermination de cet « a priori ».

↑ haut de page

Prise en compte d'entrées fonctionnelles

Un problème crucial à résoudre reste la prise en compte de facteurs fonctionnels (variables multidimensionnelles) dans les plans d’expériences.

Les plans d’expériences sont en général utilisés avec des variables (ou facteurs) scalaires. Or, de nombreux problèmes intègrent des facteurs multidimensionnels, telles que des courbes, des surfaces ou des variables spatiales. La prise en compte de ce type de facteurs dans le strict cadre de la théorie peut nécessiter une paramétrisation, allant de la plus simple à la plus complexe.

La prise en compte de ces variables particulières reste un défi, quelle que soit les méthodes envisagées. Parmi les paramétrisations possibles envisageables, en dehors de celle, élémentaire, qui consiste à faire des approximations par « zones » de valeurs constantes, on peut être amené à étudier ou adapter des méthodes telles que le morphing, les simulations graduelles, les points pilotes ou d’autres à inventer...

↑ haut de page