Des articles

4.4 : Orthogonalité et normalisation


Considérez la série

[frac{a_0}{2} + sum_{n=1}igg[a_ncosigg(frac{npi x}{L}igg) + b_nsinigg(frac {npi x}{L}igg)igg], hspace{3cm} -L leq x leq L.]

C'est ce qu'on appelle une série trigonométrique. Si la série se rapproche d'une fonction F (comme on le verra) on l'appelle une série de Fourier et une et b sont les coefficients de Fourier de F.

Pour que tout cela ait un sens, nous étudions d'abord les fonctions

[{1,cosigg(frac{npi x}{L}igg), sinigg( frac{npi x}{L}igg)}, hspace {3 cm} n=1,2,points,]

et surtout leurs propriétés sous intégration. On trouve que

[ int_{-L}^L 1cdot 1 dx = 2L,]

[ int_{-L}^L 1 cdot cosigg(frac{npi x}{L}igg) dx = 0]

[ int_{-L}^L 1 cdot sinigg(frac{npi x}{L}igg) dx = 0]

[ egin{align} int_{-L}^L cosigg(frac{mpi x}{L}igg) cdot cosigg(frac{npi x}{ L}igg) dx & = frac{1}{2}int_{-L}^L cosigg(frac{(m+n)pi x}{L}igg) + cos igg(frac{(mn)pi x}{L}igg) dx & = igg{ egin{array}{lr} 0 & mbox{if } n leq m L & mbox{if } n=m end{array}end{align}, ]

[ egin{align} int_{-L}^L sinigg(frac{mpi x}{L}igg) cdot sinigg(frac{npi x}{ L}igg) dx & = frac{1}{2}int_{-L}^L cosigg(frac{(m+n)pi x}{L}igg) + cos igg(frac{(mn)pi x}{L}igg) dx & = igg{ egin{array}{lr} 0 & mbox{if } n leq m L & mbox{if } n=m end{array}end{align}, ]

[egin{align} int_{-L}^L cosigg(frac{mpi x}{L}igg) cdot sinigg(frac{npi x}{ L}igg) dx & = frac{1}{2}int_{-L}^L cosigg(frac{(m+n)pi x}{L}igg) + cos igg(frac{(mn)pi x}{L}igg) dx & = igg{ egin{array}{lr} 0 & mbox{if } n leq m L & mbox{if } n=m end{array} end{align},]

Si nous considérons ces intégrales comme une sorte de produit interne entre les fonctions (comme le produit interne vectoriel standard), nous voyons que nous pourrions appeler ces fonctions orthogonal. Il s'agit en effet d'une pratique courante, où pour les fonctions le général la définition du produit intérieur prend la forme

[(f,g) = int_a^b w(x)f(x)g(x)dx.]

Si c'est zéro, on dit que les fonctions F et g sont orthogonaux sur l'intervalle [uneb] avec fonction de poids w. Si cette fonction vaut 1, comme c'est le cas pour les fonctions trigonométriques, on dit simplement que les fonctions sont orthogonales sur [uneb].

La norme d'une fonction est maintenant définie comme la racine carrée du produit scalaire d'une fonction avec elle-même (encore une fois, comme dans le cas des vecteurs),

[ orm{f} = sqrt{int_a^b w(x)f(x)^2dx}.]

Si nous définissons une forme normalisée de F (comme un vecteur unitaire) comme ( f/ orm{f}), nous avons

[ orm{frac{f}{ orm{f}}} = sqrt{frac{int_a^bw(x)f(x)^2dx}{ orm{f}^2}}= frac{sqrt{int_a^bw(x)f(x)^2dx}}{ orm{f}}=frac{ orm{f}}{ orm{f}}=1.]

Exercice (PageIndex{1})

Quelle est la forme normalisée de (ig{1, cosig(frac{npi x}{L}ig), sinig(frac{npi x}{L} gros gros}?)

Réponse

( ig{frac{1}{sqrt{2L}}, ig(frac{1}{sqrt{L}}ig)cosig(frac{n pi x} {L}ig),ig(frac{1}{sqrt{L}}ig)sinig(frac{n pi x}{L}ig) ig})

Un ensemble de fonctions mutuellement orthogonales qui sont toutes normalisées est appelé un ensemble orthonormé.


Pourquoi utiliser softmax par opposition à la normalisation standard ?

Dans la couche de sortie d'un réseau de neurones, il est courant d'utiliser la fonction softmax pour approximer une distribution de probabilité :

Ceci est coûteux à calculer à cause des exposants. Pourquoi ne pas simplement effectuer une transformation en Z pour que toutes les sorties soient positives, puis normaliser simplement en divisant toutes les sorties par la somme de toutes les sorties ?


Orthogonalité et normalisation des modes de rayonnement dans les guides d'ondes diélectriques

En exprimant les équations de Maxwell dans un formalisme d'opérateur linéaire, il est montré que les propriétés d'orthogonalité et de normalisation du spectre continu des modes de rayonnement dans un guide d'ondes diélectrique avec un profil d'indice de réfraction arbitraire et une forme de section transversale peuvent être établies directement à partir des propriétés de champs d'espace libre beaucoup plus simples.

© 1982 Société d'optique d'Amérique

C. Vassallo
J. Opt. Soc. Un m. 73(5) 680-683 (1983)

Dennis P. Nyquist, Dean R. Johnson et S. Victor Hsu
J. Opt. Soc. Un m. 71(1) 49-54 (1981)

Rowland Sammut et Allan W. Snyder
Appl. Opter. 15(4) 1040-1044 (1976)

C. Vassallo
J. Opt. Soc. Un m. 69(2) 311-316 (1979)

Nikolaos K. Uzunoglu et John G. Fikioris
J. Opt. Soc. Un m. 72(5) 628-637 (1982)

Les références

Vous n'avez pas accès à ce journal par abonnement. Les listes de citations avec des liens de citation sortants sont disponibles uniquement pour les abonnés. Vous pouvez vous inscrire soit en tant que membre de l'OSA, soit en tant qu'utilisateur autorisé de votre institution.

Contactez votre bibliothécaire ou votre administrateur système
ou alors
Connectez-vous pour accéder à l'abonnement des membres OSA

Cité par

Vous n'avez pas accès à ce journal par abonnement. Les liens cités par sont réservés aux abonnés. Vous pouvez vous inscrire soit en tant que membre de l'OSA, soit en tant qu'utilisateur autorisé de votre institution.

Contactez votre bibliothécaire ou votre administrateur système
ou alors
Connectez-vous pour accéder à l'abonnement des membres OSA

Chiffres (1)

Vous n'avez pas accès à ce journal par abonnement. Les fichiers de figures ne sont disponibles que pour les abonnés. Vous pouvez vous inscrire soit en tant que membre de l'OSA, soit en tant qu'utilisateur autorisé de votre institution.

Contactez votre bibliothécaire ou votre administrateur système
ou alors
Connectez-vous pour accéder à l'abonnement des membres OSA

Équations (26)

Vous n'avez pas accès à ce journal par abonnement. Les équations sont disponibles uniquement pour les abonnés. Vous pouvez vous inscrire soit en tant que membre de l'OSA, soit en tant qu'utilisateur autorisé de votre institution.

Contactez votre bibliothécaire ou votre administrateur système
ou alors
Connectez-vous pour accéder à l'abonnement des membres OSA


4.4 : Orthogonalité et normalisation

Tony D. DeRose
Studios d'animation Pixar

David H. Salesin
Université de Washington

Avant-propos Préface Notation 1. Introduction 1.1 Méthodes multirésolutions
1.2 Perspective historique
1.3 Présentation du livre

Partie I : Images 2 Haar : la base d'ondelettes la plus simple 2.1 La transformée en ondelettes de Haar unidimensionnelle
2.2 Fonctions de base de Haar unidimensionnelles
2.3 Orthogonalité et normalisation
2.4 Compression d'ondelettes 3 Compression d'images 3.1 Transformations en ondelettes de Haar bidimensionnelles
3.2 Fonctions de base de Haar à deux dimensions
3.3 Compression d'image en ondelettes
3.4 Images en couleur
3.5 Résumé 4 Édition d'images 4.1 Structures de données d'images multirésolutions
4.2 Algorithme d'édition d'images
4.3 Conditions aux limites
4.4 Affichage et édition à des résolutions fractionnaires
4.5 Exemples d'édition d'images 5 Interrogation d'images 5.1 Interrogation d'images par contenu
5.2 Développer une métrique pour l'interrogation d'images
5.3 Algorithme de requête d'images
5.4 Exemples d'interrogation d'images
5.5 Prolongations

Partie II : Courbes 6 Courbes de subdivision 6.1 Subdivision uniforme
6.2 Subdivision non uniforme
6.3 Masques d'évaluation
6.4 Espaces imbriqués et fonctions de mise à l'échelle affinables 7 La théorie de l'analyse multirésolution 7.1 Analyse multirésolution
7.2 Ondelettes orthogonales
7.3 Ondelettes semi-orthogonales
7.4 Ondelettes biorthogonales
7.5 Résumé 8 courbes multirésolutions 8.1 Représentations des courbes associées
8.2 Lissage d'une courbe
8.3 Editer une courbe
8.4 Conversion de balayage et compression de courbe 9 Mosaïque multirésolution 9.1 Solutions précédentes au problème de carrelage
9.2 L'algorithme de tuilage multirésolution
9.3 Complexité temporelle
9.4 Exemples de carrelage

Partie III : Surfaces 10 ondelettes de surface 10.1 Présentation de l'analyse multirésolution pour les surfaces
10.2 Surfaces de lotissement
10.3 Sélection d'un produit intérieur
10.4 Une construction en ondelettes de surface biorthogonale
10.5 Représentations multirésolutions des surfaces 11 Applications de surface 11.1 Conversion en forme multirésolution
11.2 Compression superficielle
11.3 Contrôle continu du niveau de détail
11.4 Transmission progressive
11.5 Édition multirésolution
11.6 Orientations futures des ondelettes de surface

Partie IV : Simulation physique 12 Modélisation variationnelle 12.1 Configuration de la fonction objectif
12.2 La méthode des éléments finis
12.3 Utilisation des éléments finis dans la modélisation variationnelle
12.4 Modélisation variationnelle par ondelettes
12.5 Modélisation variationnelle adaptative 13 Illumination globale 13.1 Radiosité
13.2 Éléments finis et radiosité
13.3 Radiosité des ondelettes
13.4 Améliorations apportées à la radiosité des ondelettes 14 Lectures complémentaires 14.1 Théorie de l'analyse multirésolution
14.2 Applications d'images
14.3 Applications de courbes et de surfaces
14.4 Simulation physique

Partie V : Annexes Une revue d'algèbre linéaire A.1 Espaces vectoriels
A.2 Bases et dimension
A.3 Produits internes et orthogonalité
A.4 Normes et normalisation
A.5 Vecteurs propres et valeurs propres B Matrices d'ondelettes B-spline B.1 Ondelettes de Haar
B.2 Ondelettes linéaires B-spline interpolées aux points d'extrémité
B.3 Ondelettes quadratiques B-spline à interpolation des points d'extrémité
B.4 Ondelettes cubiques B-spline interpolant les points d'extrémité C Code Matlab pour les ondelettes B-spline Bibliographie Indice Plaques de couleur


Krita 4.4.3 publié avec des améliorations de stabilité et de performances, des corrections de bugs

La Fondation Krita a lancé le développement de la prochaine version majeure de son logiciel de peinture numérique largement utilisé, Krita 5, de sorte qu'ils ne concentrent leurs efforts que sur la création de Krita 4.4 série plus stable et fiable.

En tant que telle, la version ponctuelle de Krita 4.4.3, la troisième de la série, est là pour résoudre divers plantages qui se sont produits lors de la réapplication d'un filtre avec une nouvelle demande ou lors de la peinture sur un masque de filtre créé à partir d'une sélection vectorielle, ainsi que dans le filtre demi-teinte, en raison de l'accès à un pointeur invalide.

Cette version corrige également ‘Color as Alpha’ et ‘Preserve Alpha’ dans les pinceaux personnalisés et Presse-papiers, améliore la normalisation dans l'outil Smart Patch, fait fonctionner à nouveau la synchronisation du niveau de zoom entre la toile et le bloc-notes, et les adresses un problème où le bloc-notes peut ne plus répondre.

Certains problèmes de performances avec le bouton de couleur de premier plan et d'arrière-plan, l'enregistrement des sauvegardes incrémentielles, la gestion des indicateurs de canal et le style dans KisAngleSelector lorsque la zone de rotation doit être plate et utiliser le nouveau sélecteur d'angle partout, ainsi que les RGBA_brushes sont également résolus. bundle, qui ne sera plus recréé au démarrage.

Avec la série Krita 5 en route, il y aura probablement moins de travail sur la branche Krita 4.4, donc on ne sait pas si (ou quand) une nouvelle version ponctuelle sera faite. Par conséquent, si vous utilisez Krita 4.4, je vous suggère de passer à la version 4.4.3 dès que possible, soit en téléchargeant le binaire universel AppImage depuis le site officiel, soit via les référentiels de logiciels stables de votre distribution GNU/Linux préférée.


2 réponses 2

Pour un $ extbf fixe$ , un facteur de Bloch $u_<>>$ satisfait l'équation aux valeurs propres suivante : egin frac<(hat< extbf

> + hbar extbf)^2><2m>u_<>>( extbf) = E_<>> u_<>>( extbf) finir soumis à une condition aux limites périodique sur une maille unitaire. Notez que les facteurs de Bloch correspondant à différents vecteurs d'onde de Bloch ( $ extbf$ 's) constituent des systèmes propres distincts. Il est donc inutile de considérer une relation d'orthonormalité entre les facteurs de Bloch à moins qu'ils aient le même $ extbf$ . Tout ce que nous pouvons dire, c'est que pour chaque $ extbf$ séparément, la relation egin int_ d^3 extbf, u_<>>^*( extbf)u_<>>( extbf) = delta_ finir tient. ( $Omega$ désigne une cellule unitaire.)

Je ne pense pas qu'il existe une condition d'orthonormalité similaire sur le $u_$ pour différents $k$ . Dans la limite où le potentiel $V(mathrm) o 0$ , les fonctions d'onde de Bloch sont essentiellement des ondes planes de sorte que, dans $1mathrm$ et jusqu'à un facteur de normalisation : $u_(mathrm) = exp left(i left( k + (-1)^n mathrm(k) mathrm gauche(frac <2> ight)frac<2 pi> ight) r ight)$ (veuillez vérifier l'expression, j'aurais facilement pu faire une erreur car la cartographie des bandes est un cauchemar).

Le résultat important est que, alors que nous avons toujours la condition d'orthonormalité à $k$ fixe :

Nous n'avons pas de condition similaire pour différents $k$ . Par exemple, rester dans $1mathrm$ et en regardant la bande la plus basse ( $n=0$ ), nous devrions avoir quelque chose comme :

(Mais vous pouvez aussi avoir un chevauchement non nul entre $u_$ et $u_$ pour $n eq n'$ si $k eq k'$ .)

Dans l'autre cas limite, lorsque $V(r)$ est infiniment fort, les bandes sont plates et $u_(mathrm) = 1$ jusqu'à une phase et un facteur de normalisation. Dans ce cas, vous aurez quelque chose comme :

PS : ce que j'ai écrit en intégrant deux $u_(mathbf)$ est encore une simplification, car il est possible d'ajouter une phase globale en fonction de $mathbf$ pour tous les $n$, c'est-à-dire le paramètre $u'_<>>(mathbf) = exp (i heta(mathbf)) u_<>>(mathbf)$ sans aucun changement physiquement significatif. Cela modifierait les résultats précédents par un facteur de phase supplémentaire de $exp (i( heta(mathbf) - heta(mathbf)))$ mais cela ne change pas l'argument principal. Si quoi que ce soit, cela devrait vous convaincre que comparer deux $u_$ avec des valeurs différentes de $k$ n'est pas si important la plupart du temps.


4.4 : Orthogonalité et normalisation

Normalisation orthogonale du poids

Ce projet est l'implémentation Torch de l'article : Orthogonal Weight Normalization: Solution to Optimization over Multiple Dependent Stiefel Manifolds in Deep Neural Networks (arXiv:1709.06079 )

Exigences et dépendances

  • Installer Torch avec le GPU CUDA
  • Installer cudnn v5
  • Installez les packages lua dépendants optnet en exécutant : luarocks install optnet
  • Installez Magma (vous pouvez suivre les instructions dans le fichier 'Install Magma.txt' ) Remarque : Magma est utilisé pour le SVD sur GPU. Si vous n'installez pas Magma, vous ne pouvez pas exécuter le code sur GPU (Pour toute l'expérience sur les CNN, nous exécutons l'expérience sur GPU)

1. Reproduisez les résultats pour résoudre le problème OMSDM :

Ce script téléchargera automatiquement l'ensemble de données MNIST et vous devrez placer le 'mnist.t7' (répertoire) dans le répertoire './dataset/'. Vous pouvez essayer un taux d'apprentissage plus faible et ajouter plus de couches, ou utiliser une taille de lot différente en fonction de ce script.

2. Reproduire les résultats sur l'architecture MLP :

Préparations du jeu de données : vous devez télécharger le jeu de données PIE et placer le fichier de données dans le répertoire : './dataset/' (Les chemins finaux des fichiers de données sont : './dataset/PIE/PIE_train.dat' et './ dataset/PIE/PIE_test.dat')

-----------------------------Notez que l'expérience ci-dessus est sous MLP et s'exécute sur CPU, et donc il n'est pas nécessaire d'installer Magma pour l'expérience ci-dessus --------------------

3. Reproduire les résultats sur le style VGG, BN-Incption et le réseau résiduel large sur l'ensemble de données CIFAR :

Préparation des jeux de données : vous devez télécharger les jeux de données CIFAR-10 et CIFAR-100, et mettre le fichier de données dans le répertoire : './dataset/'

Pour reproduire les résultats expérimentaux, vous pouvez exécuter le script ci-dessous, qui comprend toutes les informations des configurations expérimentales :

Le modèle de réseau résiduel étendu est basé sur le projet de torche facebook : https://github.com/szagoruyko/wide-residual-networks

4. Exécutez l'expérience sur l'ensemble de données imageNet.

  • (1) Vous devez cloner le projet de réseau résiduel Facebook à partir de : https://github.com/facebook/fb.resnet.torch
  • (2) Vous devez télécharger l'ensemble de données imageNet et le placer dans le répertoire : '/tmp/dataset/imageNet/' (vous pouvez également modifier le chemin, qui est défini dans 'opts_imageNet.lua')
  • (3) Copiez 'opts_imageNet.lua', 'exp_Conv_imageNet_expDecay.lua', 'train_expDecay.lua', 'module' et 'models' dans le chemin racine du projet.
  • (4) Exécuter :

Vous pouvez entraîner d'autres modèles respectifs en utilisant le paramètre '-model'

[email protected], Toutes les discussions et suggestions sont les bienvenues !


Différence entre normalisation et dénormalisation

Les bases de données relationnelles sont constituées de relations (tables liées). Les tableaux sont constitués de colonnes. Si les tables sont deux grandes (c'est-à-dire trop de colonnes dans une table), alors des anomalies de base de données peuvent se produire. Si les tables sont deux petites (c'est-à-dire que la base de données est composée de nombreuses tables plus petites), cela serait inefficace pour les requêtes. La normalisation et la dénormalisation sont deux processus utilisés pour optimiser les performances de la base de données. La normalisation minimise les redondances présentes dans les tables de données. La dénormalisation (inverse de la normalisation) ajoute des données redondantes ou des données de groupe.

Qu'est-ce que la normalisation ?

La normalisation est un processus effectué pour minimiser les redondances présentes dans les données des bases de données relationnelles. Ce processus divisera principalement les grandes tables en tables plus petites avec moins de redondances (appelées « formes normales »). Ces petites tables seront liées les unes aux autres par des relations bien définies. Dans une base de données bien normalisée, toute altération ou modification de données nécessitera la modification d'une seule table. La première forme normale (1NF), la deuxième forme normale (2NF) et la troisième forme normale (3NF) ont été introduites par Edgar F. Codd. La forme normale Boyce-Codd (BCNF) a été introduite en 1974 par Codd et Raymond F. Boyce. Des formes normales supérieures (4NF, 5NF et 6NF) ont été définies, mais elles sont rarement utilisées.

Une table conforme à 1NF garantit qu'elle représente réellement une relation (c'est-à-dire qu'elle ne contient aucun enregistrement qui se répète) et qu'elle ne contient aucun attribut ayant une valeur relationnelle (c'est-à-dire que tous les attributs doivent avoir des valeurs atomiques). Pour qu'une table soit conforme à 2NF, elle doit être conforme à 1NF et tout attribut qui ne fait partie d'aucune clé candidate (c'est-à-dire les attributs non premiers) doit entièrement dépendre de l'une des clés candidates de la table. Selon la définition de Codd, une table est dite en 3NF, si et seulement si, cette table est sous la deuxième forme normale (2NF) et chaque attribut de la table qui n'appartient pas à une clé candidate devrait dépendre directement de chaque clé candidate de cette table. BCNF (également connu sous le nom de 3.5NF) capture certaines des anomalies qui ne sont pas traitées par le 3NF.

Qu'est-ce que la dénormalisation ?

La dénormalisation est le processus inverse du processus de normalisation. La dénormalisation fonctionne en ajoutant des données redondantes ou en regroupant des données pour optimiser les performances. Même si l'ajout de données redondantes semble contre-productif, la dénormalisation est parfois un processus très important pour surmonter certaines des lacunes du logiciel de base de données relationnelle qui peut entraîner de lourdes pénalités de performances avec des bases de données normalisées (même réglées pour des performances plus élevées). En effet, joindre plusieurs relations (qui sont le résultat de la normalisation) pour produire un résultat à une requête peut parfois être lent en fonction de la mise en œuvre physique réelle des systèmes de base de données.

Quelle est la différence entre la normalisation et la dénormalisation ?

– La normalisation et la dénormalisation sont deux processus complètement opposés.

– La normalisation est le processus consistant à diviser des tables plus grandes en de plus petites, réduisant les données redondantes, tandis que la dénormalisation consiste à ajouter des données redondantes pour optimiser les performances.

– La normalisation est effectuée pour éviter les anomalies des bases de données.

– La dénormalisation est généralement effectuée pour améliorer les performances de lecture de la base de données, mais en raison des contraintes supplémentaires utilisées pour la dénormalisation, les écritures (c'est-à-dire les opérations d'insertion, de mise à jour et de suppression) peuvent devenir plus lentes. Par conséquent, une base de données dénormalisée peut offrir des performances d'écriture moins bonnes qu'une base de données normalisée.

– Il est souvent recommandé de "normaliser jusqu'à ce que ça fasse mal, dénormaliser jusqu'à ce que ça marche".


RÉSULTATS

Appeler les variations de la lignée germinale à partir d'échantillons HapMap

Efficacité de la procédure de normalisation

Nous examinons d'abord l'efficacité du modèle de normalisation proposé par le CODEX sur l'ensemble de données WES du projet 1000 génomes ( 29). Des études antérieures ont montré que la profondeur de lecture a une relation unimodale avec le contenu GC - les régions avec un contenu GC élevé ou faible ont tendance à avoir une profondeur de lecture réduite (44). Dans nos estimations lissées de |$f_j (GC),$| nous constatons que la plupart des échantillons, mais pas tous, ont une forme unimodale pour cette fonction. Nous montrons les valeurs prédites de |$f_j (GC)$| pour quatre échantillons typiques de la figure 3. Fait intéressant, nous avons constaté que certains échantillons ont des estimations avec plusieurs pics dans |$f_j (GC),$| ce qui suggère qu'une forme fonctionnelle paramétrique supposant l'unimodalité peut être trop simpliste. En comparant les échantillons, nous voyons que la fonction |$f_j (GC)$| changements de forme et pas seulement par un facteur d'échelle. Par conséquent, le biais du contenu GC n'est pas linéaire entre les échantillons et ne peut donc pas être entièrement capturé par les modèles à facteurs latents linéaires. Cela motive le terme non paramétrique séparé dans notre modèle pour le biais GC.

Valeurs prédites de |$f(GC)$| pour quatre échantillons de l'ensemble de données du projet 1000 génomes. La plupart des modèles concordent avec les observations précédentes selon lesquelles la profondeur de lecture a une relation unimodale avec le contenu GC. Cependant, une double modalité est également observée. De plus, la fonction change de forme et pas seulement par un facteur d'échelle.

Valeurs prédites de |$f(GC)$| pour quatre échantillons de l'ensemble de données du projet 1000 génomes. La plupart des modèles concordent avec les observations précédentes selon lesquelles la profondeur de lecture a une relation unimodale avec le contenu GC. Cependant, une double modalité est également observée. De plus, la fonction change de forme et pas seulement par un facteur d'échelle.

Nous comparons en outre le résultat de la normalisation de CODEX à celui de la méthode basée sur SVD en utilisant des appels CNV basés sur des tableaux du Consortium international HapMap (30) sur les mêmes échantillons que nous analysons. Pour différentes catégories d'événements CNV, à savoir les délétions homozygotes, les délétions hétérozygotes et les duplications, nous utilisons un seuillage direct de |$log (>)$| pour tracer les courbes ROC (Receptor Operating Characteristic) de notre modèle, où |$widehatlambda$| est la couverture de contrôle estimée à partir de la procédure de normalisation du CODEX. Les courbes ROC pour la normalisation basée sur SVD sont tracées par seuillage sur les résidus obtenus en soustrayant le premier K composants principaux (PC) de la profondeur de lecture d'origine Oui. Une analyse de puissance distincte est effectuée pour chacune des catégories d'événements suivantes : délétion homozygote commune, délétion hétérozygote commune, duplication commune, délétion hétérozygote rare et duplication rare (Figure supplémentaire S2). Il n'y a pas de délétions homozygotes rares car toutes les délétions rares de l'ensemble d'appels HapMap CNV sont présentes uniquement sous forme hétérozygote. Nous voyons que la procédure de normalisation de CODEX conduit à un meilleur rapport signal sur bruit pour les CNV communs et rares, et pour les suppressions et les duplications (Figure supplémentaire S2).

Précision des appels CNV

Nous comparons ensuite la précision du CODEX aux approches existantes conçues pour les appels CNV basés sur la population. Ces programmes incluent CoNIFER ( 26), XHMM ( 28) et EXCAVATOR (25) dans son mode « pooling », pour lesquels nous avons ajouté quatre échantillons supplémentaires comme témoins (tableau supplémentaire S1).

Le nombre d'appels effectués par chaque programme sur chaque échantillon de chromosome, décomposé en appels communs et rares, est indiqué dans le tableau 1. Globalement, CODEX détecte deux fois plus d'événements CNV que XHMM et près de 10 fois plus que CoNIFER, tandis que EXCAVATOR et CODEX ont un nombre d'appels comparable. CoNIFER détecte le moins de CNV au total, ce qui est en accord avec les comparaisons avec EXCAVATOR faites dans Magi et al. (25). Comme CoNIFER ne choisit pas automatiquement le nombre de PC, nous fixons le nombre de PC filtrés par CoNIFER à 4, en accord avec la sélection faite par XHMM afin de rendre comparables les deux programmes basés sur SVD. Le choix de 4 PC en normalisation ne doit pas expliquer le faible nombre d'appels effectués par CoNIFER, car à travers le scree plot produit par CoNIFER, nous trouvons que la courbe de variance relative contributive est toujours significativement décroissante à 4, indiquant que le choix de 4 est prudent (Figure supplémentaire S3). Une grande partie des appels XHMM et CoNIFER sont des variantes rares (<5%) : 52,46 % (501/955) et 83,07 % (157/189), respectivement. Malgré le biais de sensibilité du HMM et du CoNIFER envers les variantes rares, CODEX détecte encore plus de CNV rares au total ainsi que des CNV proportionnellement plus courantes. Notamment, le nombre de facteurs latents K sélectionné par CODEX est pour la plupart des chromosomes un de moins que le nombre de PC exclus par XHMM à travers le génome. De plus, CODEX et XHMM ont tendance à détecter des CNV plus courtes par rapport à CoNIFER et EXCAVATOR dans les unités de kb (Figure 4a) et d'exon (Figure 4b). Des ensembles d'appels CNV détaillés par les quatre méthodes sont fournis dans le tableau supplémentaire S2.

Longueurs des appels CNV par CODEX, XHMM, CoNIFER et EXCAVATOR. Les longueurs génomiques des CNV (a) et le nombre d'exons dans les régions CNV (b) sont comparés selon quatre méthodes différentes. CODEX et XHMM détectent plus de CNV courts, tandis que CoNIFER et EXCAVATOR renvoient une proportion importante de CNV avec des longueurs supérieures à 200 kb/20 exons.

Longueurs des appels CNV par CODEX, XHMM, CoNIFER et EXCAVATOR. Les longueurs génomiques des CNV (a) et le nombre d'exons dans les régions CNV (b) sont comparées selon quatre méthodes différentes. CODEX et XHMM détectent plus de CNV courts, tandis que CoNIFER et EXCAVATOR renvoient une proportion importante de CNV avec des longueurs supérieures à 200 kb/20 exons.

Nous évaluons les appels CNV effectués par les quatre méthodes en les comparant aux appels rapportés par l'International HapMap Consortium (30), McCarroll et al. (31) et Conrad et al. (32) dans les mêmes 90 échantillons HapMap. Le Consortium international HapMap 3 a produit un ensemble d'appels CNV propre en fusionnant et en utilisant l'intensité au niveau de la sonde des matrices Affymetrix et Illumina, contenant 856 polymorphismes du nombre de copies (CNP) avec un taux d'appel moyen de 99,0% et une incohérence mendélienne de 0,3% (30). Séparément, McCarroll et al. a développé une carte composée de 1320 CNV à une résolution de point d'arrêt de 2 kb par analyse conjointe de la matrice Affymetrix SNP, de la matrice CGH (45) et des données de paires de séquences finales de fosmide (31, 46). La troisième source de validation que nous utilisons est l'ensemble d'appels de Conrad et al., qui a utilisé les puces à oligonucléotides de tuilage Nimblegen pour générer une carte de 11 700 CNV supérieures à 443 paires de bases, dont 8599 ont été validées indépendamment (32). Les CNP génotypés de ces trois études de cohorte qui se chevauchent avec des régions d'exons (73, 123 et 377 au total, respectivement) sont utilisés comme « ensemble de validation » pour évaluer la sensibilité et la spécificité des quatre méthodes comparées dans le tableau 1 (détails fournis dans le tableau supplémentaire S3). La figure 5 montre la précision et les taux de rappel (la précision est la proportion d'appels effectués par le programme qui se chevauchent avec l'ensemble de validation, et le rappel est la proportion des CNV dans l'ensemble de validation qui sont appelés.) Les différents programmes varient considérablement en termes de précision et de rappel. taux. Le CODEX a le plus haut F-mesure (moyenne harmonique de précision et de rappel) pour les CNV communs et rares (Figure 5). XHMM réussit bien à détecter les variantes rares mais est insensible aux variantes courantes (Figure 5). CoNIFER a la plus haute précision lors de la comparaison avec les appels du Consortium international HapMap (Figure 5a) et McCarroll et al. (Figure 5c) mais donne de mauvais résultats contre Conrad et al. (Figure 5b). De plus, la haute précision de CoNIFER s'accompagne d'un sacrifice important sur le rappel (Figure 5). Voir le tableau supplémentaire S4 pour des résultats de comparaison détaillés basés sur les trois métriques du tableau SNP.

L'évaluation des CNV fait appel au Projet 1000 Génomes par des méthodes basées sur des puces. Les appels CNV par CODEX, XHMM, CoNIFER et EXCAVATOR sont validés par rapport aux appels de génotypage de l'International HapMap Consortium (a), Conrad et al. (b) et McCarroll et al. (c). CODEX renvoie des taux de précision et de rappel bien équilibrés avec les F-mesures (contours gris indiqués moyens harmoniques de précision et taux de rappel) parmi toutes les méthodes de détection des CNV communes, rares et toutes.

L'évaluation des CNV fait appel au Projet 1000 Génomes par des méthodes basées sur des puces. Les appels CNV par CODEX, XHMM, CoNIFER et EXCAVATOR sont validés par rapport aux appels de génotypage de l'International HapMap Consortium (a), Conrad et al. (b) et McCarroll et al. (c). CODEX renvoie des taux de précision et de rappel bien équilibrés avec les F-mesures (contours gris indiqués moyens harmoniques de précision et taux de rappel) parmi toutes les méthodes de détection des CNV communs, rares et de tous.

Évaluation de la sensibilité avec étude de pointe

Nous procédons ensuite à une in silico étude de pointe pour évaluer la sensibilité des différentes méthodes à différentes fréquences de population. En commençant par les données WES du chromosome 20 du m = 90 échantillons HapMap analysés dans la section précédente, nous injectons des signaux CNV dans des régions neutres en nombre de copies. Nous définissons une région comme étant neutre en termes de copie si elle ne chevauche pas les appels CNV effectués par CODEX, XHMM, EXCAVATOR et CoNIFER ni avec les régions CNV précédemment signalées par DGV (http://dgv.tcag.ca/dgv/app /) et dbVar (http://www.ncbi.nlm.nih.gov/dbvar/). Sur les 3966 cibles d'exons sur le chromosome 20, 1035 satisfont à ce critère de neutre en nombre de copies. Nous avons considéré uniquement les délétions hétérozygotes de deux longueurs différentes (5 et 10 exons) et des fréquences de population variables ( ⁠|$p in < 5\% ,10\% , ldots ,95\% >$|⁠ ). Nous nous concentrons sur les délétions hétérozygotes car (i) les délétions homozygotes sont facilement détectables par toutes les méthodes (ii) comme le montre la figure supplémentaire S4, les délétions hétérozygotes avec fréquence p dans la population ont exactement la même précision de détection que les duplications avec la fréquence |$1 - p.$| Plus précisément, pour les suppressions avec des fréquences de population supérieures à 50 %, les états neutres en nombre de copies sont signalés comme des duplications, tandis que les suppressions sont signalées comme des événements normaux, puisque tous les événements de nombre de copies sont définis en référence à une moyenne de population. Les événements sont centrés à chaque centième exon et m × p les échantillons sont choisis au hasard pour être porteurs. Pour générer des signaux CNV pour les délétions hétérozygotes, nous réduisons la profondeur brute de couverture pour les exons enjambés par le CNV de oui à |$frac <2> imes y$|⁠ , où c est échantillonné à partir d'une distribution normale avec une moyenne de 1 et un écart type de 0,1.

Nous appliquons CODEX à ces ensembles de données de pointe et le comparons à la normalisation basée sur SVD suivie d'une segmentation basée sur HMM. Pour ce dernier, nous supprimons le premier K PC de la matrice de profondeur de lecture et transformer les résidus en z-scores pour chaque échantillon séparément. Le z-scores sont ensuite segmentés par un HMM dont les paramètres sont définis comme valeurs par défaut dans XHMM. La spécificité des deux approches est contrôlée pour être supérieure à 99%. Les sensibilités pour les CNV courts (5 exons) et les CNV longs (10 exons) à différents niveaux de fréquence de population sont illustrées à la figure 6. Nous voyons que les deux approches atteignent une sensibilité élevée pour les CNV rares, et les deux ont une sensibilité réduite pour les événements CNV courants. La sensibilité du CODEX est supérieure à celle de l'approche existante pour les variantes rares et courantes (Figure 6, Figure supplémentaire S5). Pour les événements CNV avec des fréquences d'environ 50 %, les deux méthodes ont la puissance la plus faible en raison du fait que les signaux CNV sont faussement filtrés par un facteur de latence par échantillon (figure 6, figures supplémentaires S5 et S6). En outre, les événements CNV plus courts sont plus souvent manqués par l'approche SVD, alors que CODEX a une sensibilité comparable pour les variantes courtes et longues à cette échelle (Figure 6, Figure supplémentaire S5). Nous examinons également l'effet de différents choix de procédures de CQ et la figure supplémentaire S5 montre que le pouvoir de détection souffre en effet de ne pas supprimer les valeurs aberrantes exceptionnelles.

Analyse de puissance de la méthode CODEX et SVD sur un ensemble de données de simulation. Les sensibilités sont obtenues en faisant la moyenne des résultats de 10 simulations. Les deux méthodes souffrent d'événements CNV « communs » (CNV avec des fréquences d'environ 50 %). Lorsque la fréquence CNV dépasse 50 %, les délétions et les états neutres en copie sont détectés comme des états neutres en copie et des duplications à la place, ce qui récupère les sensibilités. CODEX fonctionne mieux par rapport aux méthodes basées sur SVD avec une puissance plus élevée. Les CNV plus longues sont généralement plus faciles à détecter.

Analyse de puissance de la méthode CODEX et SVD sur un ensemble de données de simulation. Les sensibilités sont obtenues en faisant la moyenne des résultats de 10 simulations. Les deux méthodes souffrent d'événements CNV « communs » (CNV avec des fréquences d'environ 50 %). Lorsque la fréquence CNV dépasse 50 %, les délétions et les états neutres en copie sont détectés comme des états neutres en copie et des duplications à la place, ce qui récupère les sensibilités. CODEX fonctionne mieux par rapport aux méthodes basées sur SVD avec une puissance plus élevée. Longer CNVs are generally easier to be detected.

To gain a better understanding of what the latent factors in CODEX and SVD-based methods are capturing, we show in Supplementary Figure S6 the correlation of the latent factors to measurable quantities. The exon-wise latent factors in both models and the estimated value of β in CODEX are compared to GC content, mean exon coverage and true copy number. The sample-wise latent factors in both models are compared to center, batch, population and total coverage (N). Based on these correlations, we make the following observations: First, mean exon coverage (represented by the pseudo-reference sample |$left < left ( prod olimits _^ Y_ ight )^<1/m>:1 leq i leq n ight >$|⁠ ) is captured by β in (correlation coefficient 0.99) in CODEX and the first exon-wise PC in SVD (correlation coefficient −0.98). Exon length and capture and amplification efficiency are confounded in this exon-specific bias and there is no way, nor any need, to estimate these individual quantities separately. Second, GC content is correlated with the third exon-wise PC in SVD (correlation coefficient −0.75). CODEX specifically models the GC content bias for each sample by the term |$left < ight>,$| and as we show later, the bias cannot be fully captured by a linear PC. Third, a CNV that is more frequent in the population has higher absolute correlation between copy number state and the exon-wise latent factors in both CODEX (−0.22) and SVD (0.57). This is why sensitivity is lower for common CNVs. Finally, other known sources of bias, such as sequencing center and batch, are captured by sample-wise latent factors in both CODEX (correlation coefficient −1 and 0.74) and SVD (correlation coefficient 0.97 and −0.71). In this data set, population does not seem to be captured by any of the top latent factors.

Analysis of WES of neuroblastoma

We also apply CODEX to the WES data of 222 neuroblastoma patients from the TARGET Project ( 20). Our discussion here focuses on the well-characterized ATRX gene region ( 20, 33, 34). The TARGET Project reported recurrent focal deletions with a complex nested structure spanning the ATRX gene. Since there are matched normal samples for this study that have also been sequenced by the same technology, the TARGET calls were made by comparing each tumor sample to its matched normal. This allows us to compare the effectiveness of CODEX's normalization model to that of taking a log ratio to the matched normal coverage. Also, focusing on this well-characterized region allows us to demonstrate in accuracy of CODEX for handling recurrent complex nested events.

The RPKM (reads per kilo bases per million reads) for each exon and each sample are plotted in Figure 7a. The RPKM profiles are very noisy and do not show any clear decrease in this region in any of the samples, highlighting the need for normalization. For comparison, we also show the TARGET Project's initial analysis, which reported 16 multi-exon deletions within ATRX by comparing tumor to matched normal samples ( 20). Specifically, we repeat their analysis by thresholding the log2-ratio of RPKM in tumor to RPKM in normal samples, illustrated in Figure 7b. Figure 7c shows the normalized intensities given by CODEX, which detects 18 samples with somatic focal deletions (plots for each individual sample are given in Supplementary Figure S7). We also apply XHMM to the tumor data set and detect 14 samples with focal deletions (Figure 7d).

Detection of rare somatic deletions within ATRX by WES of 222 neuroblastoma-matched tumor/blood samples. Location of ATRX is shown as blue bars in c and d. (a) RPKM computed from the tumor samples. There is no clear visual indication of presence of somatic CNVs from these raw quantities. (b) Log2-ratio of tumor versus blood read depth. Initial analysis by the TARGET Project did careful inspection of these values and discovered 16 samples with focal deletions. (c) Log2-ratio of the original tumor read depth Oui versus the estimated control coverage |$widehatlambda$| (model fitted on tumor data set only) by CODEX. Poisson likelihood-based segmentation algorithm by CODEX discovers 18 samples (red bars) with somatic deletions that exhibit a nested structure across samples. The 4 samples that are called by CODEX but not by XHMM are colored in red in the embedded window. (d) XHMM's direct output: z-scores normalized by PC analysis. The HMM calling algorithm by XHMM detects 14 samples (red bars) with somatic deletions.

Detection of rare somatic deletions within ATRX by WES of 222 neuroblastoma-matched tumor/blood samples. Location of ATRX is shown as blue bars in c and d. (a) RPKM computed from the tumor samples. There is no clear visual indication of presence of somatic CNVs from these raw quantities. (b) Log2-ratio of tumor versus blood read depth. Initial analysis by the TARGET Project did careful inspection of these values and discovered 16 samples with focal deletions. (c) Log2-ratio of the original tumor read depth Oui versus the estimated control coverage |$widehatlambda$| (model fitted on tumor data set only) by CODEX. Poisson likelihood-based segmentation algorithm by CODEX discovers 18 samples (red bars) with somatic deletions that exhibit a nested structure across samples. The 4 samples that are called by CODEX but not by XHMM are colored in red in the embedded window. (d) XHMM's direct output: z-scores normalized by PC analysis. The HMM calling algorithm by XHMM detects 14 samples (red bars) with somatic deletions.

Of the 18 samples with somatic deletions detected by CODEX, three are also called by the TARGET Project but missed by XHMM one is detected by XHMM and CODEX with exactly the same breakpoints but is missed by the Target Project one is uniquely called by CODEX (Supplementary Table S5a). The sample uniquely called by CODEX is a small deletion that overlaps significantly with deletions called in other samples. Detailed CNV calling and genotyping results by each method are in Supplementary Table S5b–d and the genome-wide blood and tumor CNV events discovered by CODEX are summarized in Supplementary Table S6. The comprehensive analysis results will be published separately.

It is clear by visual comparison of Figure 7c to b and d that the read depth normalization method within CODEX gives better signal-to-noise ratio than the SVD-based normalization method in XHMM (note the difference in range of the oui-axes) and also better than the commonly prescribed method of normalizing to matched normal controls. This illustrates that by borrowing information across a large cohort, the estimated control coverage of |$widehatlambda$| from our normalization model is more effective in capturing the biases in WES than the matched normal. Whereas the matched normal sample is important to distinguish between germline and somatic variants, CODEX's normalization procedure can be used in case of unavailability of blood samples or contamination of blood samples from circulating tumor cells. When matched normal is available, somatic status can be determined by comparing CODEX calls in tumor to those in normal. This example also shows that CODEX's segmentation algorithm performs well in detecting multi-exon CNVs with a nested structure, and that it successfully detected a rare CNVs (18/222 = 8.11%) in a clinical setting.


How to show orthogonality of associated Laguerre polynomials?

Not sure whether it's too late, but here's my answer. I'm a bit confused by your notation (where did $ n$ come from?), so I'll use mine.

You want to start with Rodrigues form: egin L^k_n (x) &= frac> frac left( x^ e^ <-x> ight) &= frac> <2 pi i>oint frac <>e^<-s>><(s-x)^> ds end Now, make a substitution: $ z = frac $ $ L_n^k (x) = frac<1> <2 pi i>oint frac <1-z>> > <(1-z)^z^> dz $ With the help of Cauchy integral formula, we obtain the generating function of associated Laguerre Polynomials: $ sum_ < n=0 >^infty L_n ^k (x) t^n = frac <1-t>> ><(1-t)^> $ Now, to prove the orthogonality of the polynomials, we put two generating functions inside the inner product integral: egin & int _0 ^infty frac<1-t>>><(1-t)^> frac<1-s>>><(1-s)^> e^ <-x>x^k dx &= frac<1> <(1-t)^(1-s)^> int _0 ^infty e^< - frac<1-ts><(1-t)(1-s)>x > x^ dx &= frac<1><(1-ts )^> int _0 ^infty e^ <-x'>x'^ dx' end Here, we make another substitution, where $ x' = frac<1-ts> <(1-t)(1-s)>x $ Notice that the RHS is the Gamma function: $ int _0 ^infty e^ <-x'>x'^ dx' = k! $ and make use of the differentiation of geometric series: $ frac<1><(1-ts)^> = sum _ ^infty frac<(i+k)!> (ts)^i $ We get: egin & frac<1><(1-ts )^> int _0 ^infty e^ <-x'>x'^ dx' &= k! sum _ ^infty frac<(i+k)!> (ts)^i &= sum_^infty frac<(i+k)!> t^i s^i end But this result was deduced from the multiplication of two generating function, therefore: egin & int _0 ^infty frac<1-t>>><(1-t)^> frac<1-s>>><(1-s)^> e^ <-x>x^k dx &= sum_^infty sum_^infty left< L^k_n (x)| L^k _m (x) ight> t^n s^m end Where $ left< f(x) | g(x) ight> := int_0 ^infty e^ <-x>x^k f(x) g(x) dx $ Compare the coefficients of the two results, note that the innerproduct is 0 whenever $ n eq m $ , we get: $ left< L^k_n (x) | L^k_m (x) ight> = frac<(n+k)!> delta_ $


Voir la vidéo: LE COURS: Produit scalaire - Première (Octobre 2021).