Matrix Chain Rule

If observations are recorded along rows (row-major), the following linear regression model holds and conventional definition of the partials:

$\hat{Y} \frac{\partial Y ^}{\partial W} = XW = \frac{\partial Y ^ _{ik}}{\partial W _{jk}}$

For column-major the model is:

$\hat{Y} \frac{\partial Y ^}{\partial W} = WX = \frac{\partial Y ^ _{ki}}{\partial W _{kj}}$

In either case, it will be shown that the chain rule will be:

$\frac{\partial ε}{\partial W} = \frac{\partial Y ^}{\partial W} (\frac{\partial ε}{\partial Y ^})^{T}$

Notation

The notation, $[j == l]$ is adapted from Knuth ¹ and defined as:

$δ_{j l} = I_{j l} = [j == l] = {1, j = l 0, j \neq = l$

Solving the Product Derivatives

$Y ⟹ \frac{\partial Y _{k l}}{\partial W _{ij}} = W X = \frac{\partial}{\partial W _{ij}} p = 1 \sum ncol (X) [W_{k p} X_{pl}] = p = 1 \sum ncol (X) [\frac{\partial}{\partial W _{ij}} (W_{k p} X_{pl})] = 0 + \dots \frac{\partial}{\partial W _{ij}} (W_{kj} X_{j l}) + \dots 0 = {\frac{\partial}{\partial W _{ij}} (W_{ij} X_{j l}) 0 k = i k \neq = i = [k == i] X_{j l} = δ_{ki} X_{j l}$

$Y ⟹ \frac{\partial Y _{k l}}{\partial W _{ij}} = X W = \frac{\partial}{\partial W _{ij}} p = 1 \sum ncol (X) [X_{k p} W_{pl}] = p = 1 \sum ncol (X) [\frac{\partial}{\partial W _{ij}} (X_{k p} W_{pl})] = 0 + \dots + \frac{\partial}{\partial W _{ij}} (X_{ki} W_{i l}) + 0 \dots = {\frac{\partial}{\partial W _{ij}} (X_{ki} W_{ij}) 0 j = l j \neq = l = [j == l] X_{ki} = δ_{j l} X_{ki}$

So we have:

$\frac{\partial}{\partial W _{ij}} ([W X]_{[k, l]}) \frac{\partial}{\partial W _{ij}} ([X W]_{[k, l]}) = I_{j l} X_{ki} = X_{j l} I_{ki}$

Solving the Chain Rule

For the column-major example $Y = WX$ :

$\frac{\partial ε}{\partial W _{ij}} ⟹ \frac{\partial ε}{\partial W} = q \sum [p \sum [\frac{\partial ε}{\partial Y _{pq}} \frac{\partial Y _{pq}}{\partial W _{ij}}]] q \sum [p \sum [\frac{\partial ε}{\partial Y _{pq}} \frac{\partial Y _{pq}}{\partial W _{ij}} I_{p i}]] When p \neq = i We have zero so: = q \sum [\frac{\partial ε}{\partial Y _{i q}} \frac{\partial Y _{i q}}{\partial W _{ij}}] From Matrix Identities we have: = q \sum [\frac{\partial ε}{\partial Y _{i q}} X_{j q}] Transpose X : = q \sum [\frac{\partial ε}{\partial Y ^ _{i q}} X^{T}_{q j}] By definition we have: = \frac{\partial ε}{\partial Y ^} X^{T} = \frac{\partial ε}{\partial Y ^} X^{T}$

This of course assumes column-major where the columns of $Y$ represent observations and the rows are features, in the event that these were transposed we would have

$Y_{r} X_{r} W_{r} = Y^{T} = X^{T} = W^{T}$

and hence:

$(\frac{\partial ε}{\partial W})^{T} \frac{\partial ε}{\partial W _{r}} = (\frac{\partial ε}{\partial Y ^} X^{T})^{T} = X \frac{\partial ε}{\partial Y ^}^{T} Swap for Row-Major = X_{r}^{T} \frac{\partial ε}{\partial Y ^ _{r}}$

Graham, Ronald L., Donald Ervin Knuth, and Oren Patashnik. Concrete Mathematics: A Foundation for Computer Science. 2nd ed. Reading, Mass: Addison-Wesley, 1994.

Environmental Informatics (MATH3005)

Matrix Chain Rule

Notation

Solving the Product Derivatives

Solving the Chain Rule