# Taking the voodoo out of multiple regression

January 10, 2018

Valerio Filoso (2013) writes:

Most econometrics textbooks limit themselves to providing the formula for the $\beta$ vector of the type

Although compact and easy to remember, this formulation is a sort black box, since it hardly reveals anything about what really happens during the estimation of a multivariate OLS model. Furthermore, the link between the $\beta$ and the moments of the data distribution disappear buried in the intricacies of matrix algebra. Luckily, an enlightening interpretation of the $\beta$s in the multivariate case exists and has relevant interpreting power. It was originally formulated more than seventy years ago by Frisch and Waugh (1933), revived by Lovell (1963), and recently brought to a new life by Angrist and Pischke (2009) under the catchy phrase regression anatomy. According to this result, given a model with K independent variables, the coefficient $\beta$ for the k-th variable can be written as

where $\tilde x_k$ is the residual obtained by regressing $x_k$ on all remaining $K − 1$ independent variables.

The result is striking since it establishes the possibility of breaking a multivariate model with $K$ independent variables into $K$ bivariate models and also sheds light into the machinery of multivariate OLS. This property of OLS does not depend on the underlying Data Generating Process or on its causal interpretation: it is a mechanical property of the estimator which holds because of the algebra behind it.

From, $\beta_k = \frac{cov(y,\tilde{x}_k)}{var(\tilde x_k)}$, it’s easy to also show that

I’ll stick to the first expression in what follows. (See Filoso sections 2-4 for a discussion of the two options. The second is the Frisch-Waugh-Lovell theorem, the first is what Angrist and Pischke call regression anatomy).

Multiple regression with $K\geq3$ (a constant and two or more variables) can feel a bit like voodoo at first. It is shrouded in phrases like “holding constant the effect of”, “controlling for”, which are veiled metaphors for the underlying mathematics. In particular, it’s hard to see what “holding constant” has to do with minimising a loss function. On the other hand, a simple $K=2$ regression has an appealingly intuitive 2D graphical representation, and the coefficients are ratios of familiar covariances.

This is why it’s nice that you can break a model with $K$ variables into $K$ bivariate models involving the residuals $\tilde x_k$. This is easiest to see in a model with $K=3$: $\tilde x_k$ is the residual from a simple $K=2$ regression. Hence a sequence of three simple regressions is sufficient to obtain the exact coefficients of the $K=3$ regression (see figure 2 below, yellow boxes).

Similarly, it’s possible to arrive at the coefficients of a $K>3$ regression by starting with only simple pairwise regressions of the original $K$ independent variables. I do this for $K=4$ in figure 1. From these pairwise regressions (in black and grey1), we work our way up to three $K=3$ regressions of one $X$-variable on the two others (orange boxes), by regressing each $X$-variable on the residuals obtained in the first step. We obtain expressions for each of the $\tilde x_k$, ($g,f,q$ in my notation). We regress $Y$ on these (yellow box). Figure 1 also nicely shows that the number of pairwise regressions needed to compute multivariate regression coefficients grows with the square of $K$. According to this StackExchange answer, the total time complexity is $O(K^2n)$, for $n$ observations.

Figure 1:

Judd et al. (2017) have a nice detailed walk-through of the $K=3$ case, pp.107-116. Unfortunately, they use the more complicated Frisch-Waugh-Lovell theorem method of regressing residuals on residuals. I show this method here (in green) and the method we’ve been using (in yellow), for $K=3$. As you can see, the former method needs two superfluous base-level regressions (in dark blue). For this reason, that method becomes quickly intractable at $K\geq 4$. But they should be equivalent, hence I use the same $\theta$ coefficients in the yellow and green boxes.

Figure 2:

I made this is PowerPoint, not knowing how to do it better. Here is the file.

1. The grey ones are redundant and included for ease of notation.

# Diagrams of linear regression

January 10, 2018

I made a big diagram describing some assumptions (MLR1-6) that are used in linear regression. In my diagram, there are categories (in rectangles with dotted lines) of mathematical facts that follow from different subsets of MLR1-6. References in brackets are to Hayashi (2000).

• $U$,$Y$ are a $n \times 1$ vectors of random variables. $X$ may contain numbers or random variables. $\beta$ is a $K \times 1$ vector of numbers.
• We measure: realisations of $Y$, (realisations of) $X$. We do not measure: $\beta$, $U$. We have one equation and two unknowns: we need additional assumptions on $U$.
• We make a set of assumptions (MLR1-6) about the joint distribution $f(U,X)$. These assumptions imply some theorems relating the distribution of $b$ and the distribution of $\beta$.
• In the diagram, I stick to the brute mathematics, which is entirely independent of its (causal) interpretation.1
• Note the difference between MLR4 and MLR4’. The point of using the stronger MLR4 is that, in some cases, provided MLR4, MLR2 is not needed. To prove unbiasedness, we don’t need MLR2. For finite sample inference, we also don’t need MLR2. But whenever the law of large numbers is involved, we do need MLR2 as a standalone condition. Note also that, since MLR2 and MLR4’ together imply MLR4, clearly MLR2 and MLR4 are never both needed. But I follow standard practise (e.g. Hayashi) in including them both, for example in the asymptotic inference theorems.
• Note that since $X’X$ is a symmetric square matrix, $Q$ has full rank $K$ iff $Q$ is positive definite; these are equivalent statements (see Wooldridge 2010 p. 57). Furthermore, if $X$ has full rank $K$, then $X’X$ has full rank $K$, so MLR3* is equivalent to MLR3 plus the fact that $Q$ is finite (i.e actually converges).
• Note that given MLR2 and the law of large numbers, $Q$ could alternatively be written $E[X’X]$
• Note that whenever I write a $p\lim$ and set it equal to some matrix, I am assuming the matrix is finite. Some treatments will explicitly say $Q$ is finite, but I omit this.
• Note that by the magic of matrix inversion, $((X'X)^{-1})_{kk} = \frac{1}{\sum_{i=1}^n (x_{ki} - \bar x _{k})^2}$. 2
• Note that these expressions are equal: $\frac{b_k -\beta_k}{se(b_k)} = \frac{(b_k - \beta_k)\sqrt{n-K}} {\hat{U'} \hat{U} ((X'X)^{-1})_{kk}}$. Seeing this helps with inutition.

The second diagram gives the asymptotic distribution of the IV and 2SLS estimators.3

I made this is PowerPoint, not knowing how to do it better. Here is the file.

1. But of course what really matters is the causal interpretation.

As Pearl (2009) writes, “behind every causal claim there must lie some causal assumption that is not discernible from the joint distribution and, hence, not testable in observational studies”. If we wish to interpret $\beta$ (and hence $b$) causally, we must interpret MLR4 causally; it becomes a (strong) causal assumption.

As far as I can tell, when econometricians give a causal interpretation it is typically done thus (they are rarely explicit about it):

• MLR1 holds in every possible world (alternatively: it specifies not just actual, but all potential outcomes), hence $U$ is unobservable even in principle.
• yet we make assumption MLR4 about $U$

This talk of the distribution of a fundamentally unobservable “variable” is a confusing device. Pearl’s method is more explicit: replace MLR$\{1 \quad 4\}$ with the causal graph below, where $:=$ is used to make it extra clear that the causation only runs one way. MLR1 corresponds to the expression for $Y$ (and, redundantly, the two arrows towards $Y$), MLR4 corresponds to the absence of arrows connecting $X$ and $U$. We thus avoid “hiding causal assumptions under the guise of latent variables” (Pearl). (Because of the confusing device, econometricians, to put it kindly, don’t always sharply distinguish the mathematics of the diagram from its (causal) interpretation. To see me rant about this, see here.)

2. Think about it! This seems intuitive when you don’t think about it, mysterious when you think about it a little, and presumably becomes obvious again if you really understand matrix algebra. I haven’t reached the third stage.

3. For IV, it’s even clearer that the only reason to care is the causal interpretation. But I follow good econometrics practice and make only mathematical claims.

# The expected value of the long-term future, and existential risk

December 28, 2017

I wrote an article describing a simple model of the long-term future. Here it is:

Summary:

A number of ambitious arguments have recently been proposed about the moral importance of the long-term future of humanity, on the scale of millions and billions of years. Several people have advanced arguments for a cluster of related views. Authors have variously claimed that shaping the trajectory along which our descendants develop over the very long run (Beckstead, 2013), or reducing extinction risk, or minimising existential risk (Bostrom, 2002), or reducing risks of severe suffering in the long-term future (Althaus and Gloor, 2016) are of huge or overwhelming importance. In this paper, I develop a simple model of the value of the long-term future, from a totalist, consequentialist, and welfarist (but not necessarily utilitarian) point of view. I show how the various claims can be expressed within the model, clarifying under which conditions the long-term becomes overwhelmingly important, and drawing tentative policy implications.

# Relationships between the axiomatic systems of modal propositional logic

December 26, 2017

I made a diagram of this, based on Sider’s Logic for philosophy. An orange arrow from sytems S to system S’ means anything that is provable (and hence valid) in S is provable (and valid) in S’. I don’t add lables to the orange arrows since their meanings are clear. A green arrow from axiom schema to another says that the second schema is provable from the first in a particular system which I label.

# Triplez vos dons à des organismes efficaces grâce aux réductions d'impôt

December 16, 2017

# Tripler ses dons

Les dons à des organismes d’intérêt général ouvrent droit à une réduction d’impôt au taux de 66%, dans la limite de 20% du revenu imposable. Cette réduction permet donc de tripler ses dons. En effet, si je souhaite dépenser 1000€ en donnant, je peux donner 3000€, et l’administration fiscale me rembourse 3000 * 0.66=2000€ sous forme de réduction d’impôt. Ce régime fiscal du don est extrêmement généreux: à titre de comparaison, la législation britannique du “Gift Aid” permet d’augmenter ses dons de 25% au lieu de 200% pour la France!

# Persche 2009

Depuis l’arrêt Persche 2009, aucun état européen ne peut refuser une déduction fiscale au motif que le bénéficiaire du don n’est pas établi dans cet état. La cour a en effet établi que la déductibilité fiscale de dons transfrontaliers relève de la libre circulation de capitaux garantie par le droit communautaire.

Cependant, la France à pris plusieurs années à mettre en pratique cet arrêt.

# L’ancienne déclaration de revenus (jusqu’au millésime 2013)

Dans le formulaire 2042 “Déclaration des revenus 2012”, seule la case “Dons à des organismes établis en France” apparaît. Il n’y a aucun moyen simple de demander la réduction d’impôt pourtant garantie par Persche 2009.

Pourtant, la version en vigueur du 7 mai 2012 au 1 janvier 2014 de l’article 200 du code général des impôts est en accord avec Persche 2009. Le numéro 4 bis indique:

Ouvrent également droit à la réduction d’impôt les dons et versements effectués au profit d’organismes agréés dans les conditions prévues à l’article 1649 nonies dont le siège est situé dans un État membre de l’Union européenne ou dans un autre État partie à l’accord sur l’Espace économique européen ayant conclu avec la France une convention d’assistance administrative en vue de lutter contre la fraude et l’évasion fiscales. L’agrément est accordé lorsque l’organisme poursuit des objectifs et présente des caractéristiques similaires aux organismes dont le siège est situé en France répondant aux conditions fixées par le présent article.

Lorsque les dons et versements ont été effectués au profit d’un organisme non agréé dont le siège est situé dans un État membre de l’Union européenne ou dans un autre État partie à l’accord sur l’Espace économique européen ayant conclu avec la France une convention d’assistance administrative en vue de lutter contre la fraude et l’évasion fiscales, la réduction d’impôt obtenue fait l’objet d’une reprise, sauf lorsque le contribuable a produit dans le délai de dépôt de déclaration les pièces justificatives attestant que cet organisme poursuit des objectifs et présente des caractéristiques similaires aux organismes dont le siège est situé en France répondant aux conditions fixées par le présent article.

La demande d’agrément, régie par l’arrêté NOR EFIE1100179A du 28 février 2011 était une procédure très lourde pour les organismes. Malgré mes tentatives en été 2015, aucune des ONG recommandées par GiveWell ou Giving What We Can n’ont souhaité entamer cette procédure.

Si l’organisme n’est pas agréé, c’est le contribuable qui doit joindre à sa déclaration “les pièces justificatives attestant que cet organisme poursuit des objectifs et présente des caractéristiques similaires aux organismes” Français. Au delà de la discrépance entre le formulaire 2042 et l’article 200, il n’est qui plus est pas spécifié quelles pièces justificatives sont à apporter.

# La dispense de justificatifs

A partir du 1er janvier 2014, le contribuable n’a plus à fournir de justificatifs de ses dons. Il a seulement à les produire en cas de contrôle fiscal. L’article 4 bis précise dès la version du 1er Janvier 2014:

Lorsque les dons et versements ont été effectués au profit d’un organisme non agréé dont le siège est situé dans un État membre de l’Union européenne ou dans un autre État partie à l’accord sur l’Espace économique européen ayant conclu avec la France une convention d’assistance administrative en vue de lutter contre la fraude et l’évasion fiscales, la réduction d’impôt obtenue fait l’objet d’une reprise, sauf si le contribuable produit, à la demande de l’administration fiscale, les pièces justificatives attestant que cet organisme poursuit des objectifs et présente des caractéristiques similaires aux organismes dont le siège est situé en France répondant aux conditions fixées par le présent article.

# La case 7VC

Par ailleurs, depuis le formulaire 2042 C millésime 2014, il existe une nouvelle case 7VC, relative aux dons versés à des organismes d’intérêt général établis dans un État européen. (Depuis 2017, la case 7VC se trouve désormais dans le formulaire 2042 RICI (au lieu de 2042 C), mais reste autrement inchangée.)

# Conclusion

La dispense de justificatifs est un changement sans grande importance pour les dons à des organismes Français, puisque ces justificatifs (reçus fiscaux) sont en général donnés automatiquement par l’organisme. Mais dans le cas d’un organisme européen non agréé, le changement revêt une importance plus grande. La justification attestant que cet organisme est similaire aux organismes français d’intérêt général est en effet non seulement plus onéreuse à fournir, de surcroît ses modalités ne sont pas précisément spécifiées.

C’est donc seulement en rare cas de contrôle fiscal qu’il faudra justifier de cette similitude entre organisme européen et organismes français. En cas de contrôle, je suppose que ce serait à l’administration fiscale de préciser quels documents suffiraient à établir cette similitude. Cela ne devrait pas être difficile puisque les organismes européens plébiscités par l’altruisme efficace sont clairement d’intérêt général. En cas de doute, vous pouvez me contacter pour en discuter.

La création de la case 7VC est par ailleurs rassurante car elle met le formulaire d’impôt en conformité avec l’article 200.

# Transnational giving Europe

Il est possible de faire un don à l’Against Malaria Foundation via le réseau Transnational Giving Europe; l’on recoit alors automatiquement un reçu fiscal. Mais les frais s’élèvent à 5% de la somme donnée pour un don de moins de 100 000 euros.