A Détails

Rapport entre la communalité et l’indice de fixation

Pour faire le parallèle avec la communalité, il est nécessaire de trouver une matrice colonne \(U_{\delta}^{\prime} \in \mathcal{M}_{n, 1}(\mathbb{R})\) telle que \(F_{ST} = ||\tilde{G}^T U_{\delta}^{\prime}||_2^2\). Pour ce faire, plaçons-nous dans le cas \(N=2\) et cherchons une matrice de rotation telle que \(U_{\delta}R\) ait sa première colonne constante, c’est-à-dire telle que :

\[\begin{equation} \begin{pmatrix}\frac{1}{\sqrt{2}n_1} & 0\\ 0 & \frac{1}{\sqrt{2}n_2} \end{pmatrix}R = \begin{pmatrix} a & x\\ a & y \end{pmatrix} \tag{A.1} \end{equation}\]

\(x, y, a\) sont des réels à déterminer. Soit \(R \in M_2(\mathbb{R})\) une matrice de rotation :

\[R = \begin{pmatrix}\cos\theta & -\sin\theta\\ \sin\theta & \cos\theta \end{pmatrix}\]

En injectant \(R\) dans (A.1), on obtient :

\[\begin{equation} \begin{pmatrix}\frac{\cos\theta}{\sqrt{2}n_1} & -\frac{\sin\theta}{\sqrt{2}n_1}\\ \frac{\sin\theta}{\sqrt{2}n_2} & \frac{\cos\theta}{\sqrt{2}n_2} \end{pmatrix} = \begin{pmatrix} a & x\\ a & y \end{pmatrix} \tag{A.2} \end{equation}\]

(A.2) implique que l’angle de la rotation vérifie la relation \(\frac{\cos\theta}{\sqrt{2}n_1} = \frac{\sin\theta}{\sqrt{2}n_2}\), d’où \(\theta = \arctan(\frac{n_2}{n_1})\). Nous en déduisons ainsi les valeurs de \(x\) et de \(y\) :

\[\begin{equation} \begin{split} x & = -\frac{\sin(\arctan(\frac{n_2}{n_1}))}{n_1} \\ y & = \frac{\cos(\arctan(\frac{n_2}{n_1}))}{n_2} \\ \end{split} \tag{A.3} \end{equation}\]

Or :

\[\begin{equation} \begin{split} \sin(\arctan(x)) & = \frac{x}{\sqrt{1 + x^2}} \\ \cos(\arctan(x)) & = \frac{1}{\sqrt{1 + x^2}} \end{split} \tag{A.4} \end{equation}\]

Notant \(R\) la rotation d’angle \(\arctan(\frac{n_2}{n_1})\), on a finalament :

\[U_{\delta}R = \begin{pmatrix}a & -\delta_{11} \frac{n_2}{\sqrt{2(n_1^2+n_2^2)}} + \delta_{21} \frac{n_1}{\sqrt{2(n_1^2+n_2^2)}}\\ a & -\delta_{12} \frac{n_2}{\sqrt{2(n_1^2+n_2^2)}} + \delta_{22} \frac{n_1}{\sqrt{2(n_1^2+n_2^2)}}\\ \vdots & \vdots \\ a & -\delta_{1n} \frac{n_2}{\sqrt{2(n_1^2+n_2^2)}} + \delta_{2n} \frac{n_1}{\sqrt{2(n_1^2+n_2^2)}} \end{pmatrix}\]

Puisque \(R\) est une rotation, \(||\tilde{G}^T U_{\delta}||_2 = ||\tilde{G}^T U_{\delta}R||_2\). En développant \(\tilde{G}^T U_{\delta}R\), on obtient :

\[\begin{equation} \begin{split} \tilde{G}^T U_{\delta}R = \left(\sum_{i=1}^n a \tilde{G}_i, \sum_{i=1}^n \left(-\delta_{1i} \frac{n_2}{\sqrt{2(n_1^2+n_2^2)}} + \delta_{2i} \frac{n_1}{\sqrt{2(n_1^2+n_2^2)}}\right)\tilde{G}_i \right) \end{split} \end{equation}\]

Or \(\sum_{i=1}^n \tilde{G}_i = 0\) par définition de \(\tilde{G}\), ce qui permet d’écrire, en posant \(U_{\delta}^{\prime} \in \mathcal{M}_{n,1}(\mathbb{R})\) la matrice colonne correspondant à la deuxième colonne de \(U_{\delta}R\) :

\[\begin{equation} \begin{split} F_{ST} & = ||\tilde{G}^T U_{\delta}||_2^2 \\ & = ||\tilde{G}^T U_{\delta}R||_2^2 \\ & = ||\tilde{G}^T U_{\delta}^{\prime}||_2^2 \end{split} \end{equation}\]

Remarquons que \(U_{\delta}^{\prime}\) a une expression similaire à celle des scores de l’ACP exprimée dans G. McVean (2009).

Une généralisation de la statistique \(T_{F-LK}\)

Soit \(U\Sigma V^T\) la décomposition en valeurs singulières tronquée de rang \(K\) de \(\tilde{G}\). Notons \(\mathcal{F}\) la matrice d’apparentement génétique interpopulationnel. En utilisant l’estimateur usuel de la matrice de covariance, nous avons :

\[\begin{equation} \mathcal{F} = \frac{1}{p}U_{\delta}^T\tilde{G}\tilde{G}^TU_{\delta} \end{equation}\]

\(U_{\delta}\) est la matrice définie en proposition 2.1. Par définition de la matrice d’apparentement génétique interindividuel, \(G_{RM} = \frac{1}{p}\tilde{G}\tilde{G}^T\), si bien que :

\[\begin{equation} \mathcal{F} = U_{\delta}^TG_{RM}U_{\delta} \end{equation}\]

Or \(\tilde{G} \simeq U \Sigma V^T\), d’où \(G_{RM} \simeq U \Sigma ^2 U^T\). De la même manière qu’en proposition 2.2, nous pouvons réécrire la statistique \(T_{F-LK}\) en un locus \(j\) de la façon suivante :

\[\begin{equation} \begin{split} T_{F-LK} &= \tilde{G}_{.,j}^T U_{\delta} \mathcal{F}^{-1} U_{\delta}^T \tilde{G}_{.,j} \\ &= \tilde{G}_{.,j}^T U_{\delta} (U_{\delta}^TG_{RM}U_{\delta})^{-1} U_{\delta}^T \tilde{G}_{.,j} \\ \end{split} \end{equation}\]

Encore une fois, si l’on considère \(U\) plutôt que \(U_{\delta}\), l’expression \(\tilde{G}_{.,j}^T U_{\delta} (U_{\delta}^TG_{RM}U_{\delta})^{-1} U_{\delta}^T \tilde{G}_{.,j}\) se simplifierait en \(\tilde{G}_{.,j}^T U \Sigma^{-2} U^T \tilde{G}_{.,j}\) étant donnée l’approximation \(U^TG_{RM}U \simeq \Sigma^2\), ce qui permet de faire le lien entre la statistique \(T_{F-LK}\) et la distance de Mahalanobis calculée à partir des loadings.

References

McVean, G. (2009). A genealogical interpretation of principal components analysis. PLoS Genetics, 5(10), e1000686.