shampoo.pytorch

An implementation of shampoo, proposed in Shampoo : Preconditioned Stochastic Tensor Optimization by Vineet Gupta, Tomer Koren and Yoram Singer.

#  Suppose the size of the tensor grad (i, j, k),
#  dim_id = 1 and dim = j
grad = grad.transpose_(0, dim_id).contiguous()  # (j, i, k)
transposed_size = grad.size()
grad = grad.view(dim, -1)  # (j, i x k)
grad_t = grad.t()  # (i x k, j)
precond.add_(grad @ grad_t)  # (j, j)
inv_precond.copy_(_matrix_power(state[precond, -1 / order))  # (j, j)
grad = grad = inv_precond @ grad  # (j, i x k)
grad = grad.view(transposed_size)   # (j, i, k)

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
README.md		README.md
algorithm.png		algorithm.png
cifar_resnet.py		cifar_resnet.py
exec.py		exec.py
shampoo.py		shampoo.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

shampoo.pytorch

About

Releases

Packages

Languages

moskomule/shampoo.pytorch

Folders and files

Latest commit

History

Repository files navigation

shampoo.pytorch

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages