/
0/5

0 avis

Regularization schemes for transfer learning with convolutional networks


Type de document : Thèse
Langue : anglais

Responsabilité(s) :


Responsabilité(s) secondaire (s) :
Université de soutenance : Université de Technologie de Compiègne

Numéro national de thèse : 2019COMP2497

Année de publication : 2019


Discipline : Informatique : Unité de recherche Heudyasic (UMR-7253)

Sujets :


Mots clés :

Résumé(s) :

  • L apprentissage par transfert de réseaux profonds réduit considérablement les coûts en temps de calcul et en données du processus d entraînement des réseaux et améliore largement les performances de la tâche cible par rapport à l apprentissage à partir de zéro. Cependant, l apprentissage par transfert d un réseau profond peut provoquer un oubli des connaissances acquises lors de l apprentissage de la tâche source. Puisque l efficacité de l apprentissage par transfert vient des connaissances acquises sur la tâche source, ces connaissances doivent être préservées pendant le transfert. Cette thèse résout ce problème d oubli en proposant deux schémas de régularisation préservant les connaissances pendant l apprentissage par transfert. Nous examinons d abord plusieurs formes de régularisation des paramètres qui favorisent toutes explicitement la similarité de la solution finale avec le modèle initial, par exemple, L1, L2, et Group-Lasso. Nous proposons également les variantes qui utilisent l information de Fisher comme métrique pour mesurer l importance des paramètres. Nous validons ces approches de régularisation des paramètres sur différentes tâches de segmentation sémantique d image ou de calcul de flot optique. Le second schéma de régularisation est basé sur la théorie du transport optimal qui permet d estimer la dissimilarité entre deux distributions. Nous nous appuyons sur la théorie du transport optimal pour pénaliser les déviations des représentations de haut niveau entre la tâche source et la tâche cible, avec le même objectif de préserver les connaissances pendant l apprentissage par transfert. Au prix d une légère augmentation du temps de calcul pendant l apprentissage, cette nouvelle approche de régularisation améliore les performances des tâches cibles et offre une plus grande précision dans les tâches de classification d images par rapport aux approches de régularisation des paramètres.
  • Transfer learning with deep convolutional neural networks significantly reduces the computation and data overhead of the training process and boosts the performance on the target task, compared to training from scratch. However, transfer learning with a deep network may cause the model to forget the knowledge acquired when learning the source task, leading to the so-called catastrophic forgetting. Since the efficiency of transfer learning derives from the knowledge acquired on the source task, this knowledge should be preserved during transfer. This thesis solves this problem of forgetting by proposing two regularization schemes that preserve the knowledge during transfer. First we investigate several forms of parameter regularization, all of which explicitly promote the similarity of the final solution with the initial model, based on the L1, L2, and Group-Lasso penalties. We also propose the variants that use Fisher information as a metric for measuring the importance of parameters. We validate these parameter regularization approaches on various tasks. The second regularization scheme is based on the theory of optimal transport, which enables to estimate the dissimilarity between two distributions. We benefit from optimal transport to penalize the deviations of high-level representations between the source and target task, with the same objective of preserving knowledge during transfer learning. With a mild increase in computation time during training, this novel regularization approach improves the performance of the target tasks, and yields higher accuracy on image classification tasks compared to parameter regularization approaches.

Autre(s) titre(s):

  • Titre traduit : Stratégies de régularisation pour l'apprentissage par transfert des réseaux de neurones à convolution


  • Accéder au document
  • Consulter en ligne

    Suggestions

    Du même auteur

    Modélisation des architectures à renforcement tridimensionnel dans les structures composites | Ha, Manh Hung. Auteur

    Modélisation des architectures à renforcement tridimensionnel dans les structures composites / Ha, Manh Hung. Auteur, 2013

    Ces travaux se placent dans le cadre de l'étude des propriétés mécaniques des architectures à renforcement tridimensionnel dans les structures composites. Nous proposons une approche permettant de caractériser les propriétés mécan...

    Source : Ressources électroniques

    THES|THES

    Modèles 3D de mélanome métastatique pour l'évaluation in vitro de l'efficacité de molécules de thérapies ciblées | Morales, Delphine (19..-....). Auteur

    Modèles 3D de mélanome métastatique pour l'évaluation in vitro de l'efficacité de molécules de thérapies ciblées / Morales, Delphine (19..-....). Auteur, 2019

    La sensibilité des cellules de mélanomes aux molécules de thérapies ciblées dépend du microenvironnement tumoral (interactions cellule-cellule et cellule-matrice extracellulaire). Les systèmes tridimensionnels (3D) de culture in v...

    Source : Ressources électroniques

    THES|THES

    Collaboration entre un humain, un robot et un système ambiant pour l'évaluation de comportements | Dumont, Emmanuel (19..-....). Auteur

    Collaboration entre un humain, un robot et un système ambiant pour l'évaluation de comportements / Dumont, Emmanuel (19..-....). Auteur, 2019

    Évaluer un comportement humain c est évaluer tous les marqueurs traduisant ce comportement (gestes, paroles interactions, etc.). L observation par un humain de certains marqueurs tels que les expressions faciales, la prosodie ou e...

    Source : Ressources électroniques

    THES|THES

    Du même sujet

    Initialisation et détermination de l'architecture des perceptrons multicouches | Karouia, Mohamed. Docteur

    Initialisation et détermination de l'architecture des perceptrons multicouches / Karouia, Mohamed. Docteur - UTC, 1996

    Le premier problème étudié dans cette thèse concerne l'initialisation des poids des perceptrons multicouches. Une nouvelle méthode a été proposée dans le cas particulier des problèmes de discrimination. Cette méthode utilise les f...

    Source : Ressources électroniques

    THES|THES

    Initialisation et détermination de l'architecture des perceptrons multicouches | Karouia, Mohamed (19..-....). Auteur

    Initialisation et détermination de l'architecture des perceptrons multicouches / Karouia, Mohamed (19..-....). Auteur, 1996

    Le premier problème étudié dans cette thèse concerne l'initialisation des poids des perceptrons multicouches. Une nouvelle méthode a été proposée dans le cas particulier des problèmes de discrimination. Cette méthode utilise les f...

    Source : Catalogue

    Neural networks and deep learning | Aggarwal, Charu C.. Auteur

    Neural networks and deep learning : a textbook / Aggarwal, Charu C.. Auteur - Springer, 2018

    La 4e de couverture indique : "This book covers both classical and modern models in deep learning. The primary focus is on the theory and algorithms of deep learning. The theory and algorithms of neural networks are particularly i...

    Source : Catalogue

    Chargement des enrichissements...

    Avis des lecteurs