NVlabs · yulonglin · Sep 6, 2021 · Sep 7, 2021 · Sep 15, 2021
diff --git a/README.md b/README.md
@@ -1,3 +1,24 @@
+## StyleGAN2-ADA &mdash; `pip install` version of Official PyTorch implementation
+
+I have modified the official PyTorch implementation so that you can `pip install` this repository as a dependency and reuse the classes and functions here.
+
+### Requirements
+
+* Linux and Windows are supported, but we recommend Linux for performance and compatibility reasons.
+* 1&ndash;8 high-end NVIDIA GPUs with at least 12 GB of memory. We have done all testing and development using NVIDIA DGX-1 with 8 Tesla V100 GPUs.
+* 64-bit Python 3.7 and PyTorch 1.7.1. See [https://pytorch.org/](https://pytorch.org/) for PyTorch install instructions.
+* CUDA toolkit 11.0 or later.  Use at least version 11.1 if running on RTX 3090.  (Why is a separate CUDA toolkit installation required?  See comments in [#2](https://github.com/NVlabs/stylegan2-ada-pytorch/issues/2#issuecomment-779457121).)
+
+### Installation
+
+From repo's root directory `stylegan2-ada-pytorch`, run `python -m pip install .`
+
+### Original official implementation
+
+Available [here](https://github.com/NVlabs/stylegan2-ada-pytorch), the original `README.md` is copied below.
+
+***
+
 ## StyleGAN2-ADA &mdash; Official PyTorch implementation
 
 ![Teaser image](./docs/stylegan2-ada-teaser-1024x252.png)
@@ -151,7 +172,7 @@ w = G.mapping(z, c, truncation_psi=0.5, truncation_cutoff=8)
 img = G.synthesis(w, noise_mode='const', force_fp32=True)
 ```
 
-Please refer to [`generate.py`](./generate.py), [`style_mixing.py`](./style_mixing.py), and [`projector.py`](./projector.py) for further examples.
+Please refer to [`generate.py`](stylegan2_ada_pytorch/generate.py), [`style_mixing.py`](stylegan2_ada_pytorch/style_mixing.py), and [`projector.py`](stylegan2_ada_pytorch/projector.py) for further examples.
 
 ## Preparing datasets
 

diff --git a/pyproject.toml b/pyproject.toml
@@ -0,0 +1,6 @@
+[build-system]
+requires = [
+    "setuptools>=42",
+    "wheel"
+]
+build-backend = "setuptools.build_meta"
diff --git a/setup.cfg b/setup.cfg
@@ -0,0 +1,30 @@
+[metadata]
+name = stylegan2-ada-pytorch
+version = 1.0.0
+description =  StyleGAN2-ADA - Official PyTorch implementation
+long_description = file: README.md
+long_description_content_type = text/markdown
+url = https://github.com/NVlabs/stylegan2-ada-pytorch
+project_urls =
+    Bug Tracker = https://github.com/NVlabs/stylegan2-ada-pytorch/issues
+classifiers =
+    Programming Language :: Python :: 3
+    License :: OSI Approved :: MIT License
+    Operating System :: OS Independent
+
+[options]
+package_dir =
+    = .
+packages = find:
+python_requires = >=3.6
+install_requires =
+    torch >=1.7.0
+    click
+    requests
+    tqdm
+    pyspng
+    ninja
+    imageio-ffmpeg ==0.4.3
+
+[options.packages.find]
+where = .
diff --git a/stylegan2_ada_pytorch/__init__.py b/stylegan2_ada_pytorch/__init__.py
diff --git a/calc_metrics.py → stylegan2_ada_pytorch/calc_metrics.py b/calc_metrics.py → stylegan2_ada_pytorch/calc_metrics.py
@@ -14,14 +14,12 @@
 import tempfile
 import copy
 import torch
-import dnnlib
 
-import legacy
-from metrics import metric_main
-from metrics import metric_utils
-from torch_utils import training_stats
-from torch_utils import custom_ops
-from torch_utils import misc
+from stylegan2_ada_pytorch import legacy, dnnlib
+from stylegan2_ada_pytorch.metrics import metric_main, metric_utils
+from stylegan2_ada_pytorch.torch_utils import training_stats
+from stylegan2_ada_pytorch.torch_utils import custom_ops, misc
+
 
 #----------------------------------------------------------------------------
 
@@ -61,7 +59,7 @@ def subprocess_fn(rank, args, temp_dir):
             print(f'Calculating {metric}...')
         progress = metric_utils.ProgressMonitor(verbose=args.verbose)
         result_dict = metric_main.calc_metric(metric=metric, G=G, dataset_kwargs=args.dataset_kwargs,
-            num_gpus=args.num_gpus, rank=rank, device=device, progress=progress)
+                                              num_gpus=args.num_gpus, rank=rank, device=device, progress=progress)
         if rank == 0:
             metric_main.report_metric(result_dict, run_dir=args.run_dir, snapshot_pkl=args.network_pkl)
         if rank == 0 and args.verbose:

diff --git a/dataset_tool.py → stylegan2_ada_pytorch/dataset_tool.py b/dataset_tool.py → stylegan2_ada_pytorch/dataset_tool.py
diff --git a/dnnlib/__init__.py → stylegan2_ada_pytorch/dnnlib/__init__.py b/dnnlib/__init__.py → stylegan2_ada_pytorch/dnnlib/__init__.py
diff --git a/dnnlib/util.py → stylegan2_ada_pytorch/dnnlib/util.py b/dnnlib/util.py → stylegan2_ada_pytorch/dnnlib/util.py
diff --git a/generate.py → stylegan2_ada_pytorch/generate.py b/generate.py → stylegan2_ada_pytorch/generate.py
@@ -13,12 +13,12 @@
 from typing import List, Optional
 
 import click
-import dnnlib
 import numpy as np
 import PIL.Image
 import torch
 
-import legacy
+from stylegan2_ada_pytorch import legacy, dnnlib
+
 
 #----------------------------------------------------------------------------
 

diff --git a/legacy.py → stylegan2_ada_pytorch/legacy.py b/legacy.py → stylegan2_ada_pytorch/legacy.py
@@ -12,8 +12,9 @@
 import copy
 import numpy as np
 import torch
-import dnnlib
-from torch_utils import misc
+from stylegan2_ada_pytorch import dnnlib
+from stylegan2_ada_pytorch.torch_utils import misc
+
 
 #----------------------------------------------------------------------------
 
@@ -165,7 +166,7 @@ def kwarg(tf_name, default=None, none=None):
     #for name, value in tf_params.items(): print(f'{name:<50s}{list(value.shape)}')
 
     # Convert params.
-    from training import networks
+    from stylegan2_ada_pytorch.training import networks
     G = networks.Generator(**kwargs).eval().requires_grad_(False)
     # pylint: disable=unnecessary-lambda
     _populate_module_params(G,
@@ -262,7 +263,7 @@ def kwarg(tf_name, default=None):
     #for name, value in tf_params.items(): print(f'{name:<50s}{list(value.shape)}')
 
     # Convert params.
-    from training import networks
+    from stylegan2_ada_pytorch.training import networks
     D = networks.Discriminator(**kwargs).eval().requires_grad_(False)
     # pylint: disable=unnecessary-lambda
     _populate_module_params(D,

diff --git a/metrics/__init__.py → stylegan2_ada_pytorch/metrics/__init__.py b/metrics/__init__.py → stylegan2_ada_pytorch/metrics/__init__.py
diff --git a/metrics/frechet_inception_distance.py → ...rch/metrics/frechet_inception_distance.py b/metrics/frechet_inception_distance.py → ...rch/metrics/frechet_inception_distance.py
diff --git a/metrics/inception_score.py → ...n2_ada_pytorch/metrics/inception_score.py b/metrics/inception_score.py → ...n2_ada_pytorch/metrics/inception_score.py
diff --git a/metrics/kernel_inception_distance.py → ...orch/metrics/kernel_inception_distance.py b/metrics/kernel_inception_distance.py → ...orch/metrics/kernel_inception_distance.py
diff --git a/metrics/metric_main.py → stylegan2_ada_pytorch/metrics/metric_main.py b/metrics/metric_main.py → stylegan2_ada_pytorch/metrics/metric_main.py
@@ -10,7 +10,7 @@
 import time
 import json
 import torch
-import dnnlib
+from .. import dnnlib
 
 from . import metric_utils
 from . import frechet_inception_distance

diff --git a/metrics/metric_utils.py → ...egan2_ada_pytorch/metrics/metric_utils.py b/metrics/metric_utils.py → ...egan2_ada_pytorch/metrics/metric_utils.py
@@ -14,7 +14,8 @@
 import uuid
 import numpy as np
 import torch
-import dnnlib
+from stylegan2_ada_pytorch import dnnlib
+
 
 #----------------------------------------------------------------------------
 
@@ -156,7 +157,7 @@ def update(self, cur_items):
         total_time = cur_time - self.start_time
         time_per_item = (cur_time - self.batch_time) / max(cur_items - self.batch_items, 1)
         if (self.verbose) and (self.tag is not None):
-            print(f'{self.tag:<19s} items {cur_items:<7d} time {dnnlib.util.format_time(total_time):<12s} ms/item {time_per_item*1e3:.2f}')
+            print(f'{self.tag:<19s} items {cur_items:<7d} time {dnnlib.util.format_time(total_time):<12s} ms/item {time_per_item * 1e3:.2f}')
         self.batch_time = cur_time
         self.batch_items = cur_items
 

diff --git a/metrics/perceptual_path_length.py → ...pytorch/metrics/perceptual_path_length.py b/metrics/perceptual_path_length.py → ...pytorch/metrics/perceptual_path_length.py
@@ -14,7 +14,7 @@
 import copy
 import numpy as np
 import torch
-import dnnlib
+from .. import dnnlib
 from . import metric_utils
 
 #----------------------------------------------------------------------------

diff --git a/metrics/precision_recall.py → ...2_ada_pytorch/metrics/precision_recall.py b/metrics/precision_recall.py → ...2_ada_pytorch/metrics/precision_recall.py
diff --git a/projector.py → stylegan2_ada_pytorch/projector.py b/projector.py → stylegan2_ada_pytorch/projector.py
@@ -19,8 +19,8 @@
 import torch
 import torch.nn.functional as F
 
-import dnnlib
-import legacy
+from stylegan2_ada_pytorch import legacy, dnnlib
+
 
 def project(
     G,

diff --git a/style_mixing.py → stylegan2_ada_pytorch/style_mixing.py b/style_mixing.py → stylegan2_ada_pytorch/style_mixing.py
@@ -13,12 +13,12 @@
 from typing import List
 
 import click
-import dnnlib
 import numpy as np
 import PIL.Image
 import torch
 
-import legacy
+from stylegan2_ada_pytorch import legacy, dnnlib
+
 
 #----------------------------------------------------------------------------
 

diff --git a/torch_utils/__init__.py → ...egan2_ada_pytorch/torch_utils/__init__.py b/torch_utils/__init__.py → ...egan2_ada_pytorch/torch_utils/__init__.py
diff --git a/torch_utils/custom_ops.py → ...an2_ada_pytorch/torch_utils/custom_ops.py b/torch_utils/custom_ops.py → ...an2_ada_pytorch/torch_utils/custom_ops.py
diff --git a/torch_utils/misc.py → stylegan2_ada_pytorch/torch_utils/misc.py b/torch_utils/misc.py → stylegan2_ada_pytorch/torch_utils/misc.py
@@ -11,7 +11,7 @@
 import numpy as np
 import torch
 import warnings
-import dnnlib
+from stylegan2_ada_pytorch import dnnlib
 
 #----------------------------------------------------------------------------
 # Cached construction of constant tensors. Avoids CPU=>GPU copy when the

diff --git a/torch_utils/ops/__init__.py → ...2_ada_pytorch/torch_utils/ops/__init__.py b/torch_utils/ops/__init__.py → ...2_ada_pytorch/torch_utils/ops/__init__.py
diff --git a/torch_utils/ops/bias_act.cpp → ..._ada_pytorch/torch_utils/ops/bias_act.cpp b/torch_utils/ops/bias_act.cpp → ..._ada_pytorch/torch_utils/ops/bias_act.cpp
diff --git a/torch_utils/ops/bias_act.cu → ...2_ada_pytorch/torch_utils/ops/bias_act.cu b/torch_utils/ops/bias_act.cu → ...2_ada_pytorch/torch_utils/ops/bias_act.cu
diff --git a/torch_utils/ops/bias_act.h → ...n2_ada_pytorch/torch_utils/ops/bias_act.h b/torch_utils/ops/bias_act.h → ...n2_ada_pytorch/torch_utils/ops/bias_act.h
diff --git a/torch_utils/ops/bias_act.py → ...2_ada_pytorch/torch_utils/ops/bias_act.py b/torch_utils/ops/bias_act.py → ...2_ada_pytorch/torch_utils/ops/bias_act.py
@@ -12,7 +12,7 @@
 import warnings
 import numpy as np
 import torch
-import dnnlib
+from stylegan2_ada_pytorch import dnnlib
 import traceback
 
 from .. import custom_ops
@@ -21,15 +21,15 @@
 #----------------------------------------------------------------------------
 
 activation_funcs = {
-    'linear':   dnnlib.EasyDict(func=lambda x, **_:         x,                                          def_alpha=0,    def_gain=1,             cuda_idx=1, ref='',  has_2nd_grad=False),
-    'relu':     dnnlib.EasyDict(func=lambda x, **_:         torch.nn.functional.relu(x),                def_alpha=0,    def_gain=np.sqrt(2),    cuda_idx=2, ref='y', has_2nd_grad=False),
-    'lrelu':    dnnlib.EasyDict(func=lambda x, alpha, **_:  torch.nn.functional.leaky_relu(x, alpha),   def_alpha=0.2,  def_gain=np.sqrt(2),    cuda_idx=3, ref='y', has_2nd_grad=False),
-    'tanh':     dnnlib.EasyDict(func=lambda x, **_:         torch.tanh(x),                              def_alpha=0,    def_gain=1,             cuda_idx=4, ref='y', has_2nd_grad=True),
-    'sigmoid':  dnnlib.EasyDict(func=lambda x, **_:         torch.sigmoid(x),                           def_alpha=0,    def_gain=1,             cuda_idx=5, ref='y', has_2nd_grad=True),
-    'elu':      dnnlib.EasyDict(func=lambda x, **_:         torch.nn.functional.elu(x),                 def_alpha=0,    def_gain=1,             cuda_idx=6, ref='y', has_2nd_grad=True),
-    'selu':     dnnlib.EasyDict(func=lambda x, **_:         torch.nn.functional.selu(x),                def_alpha=0,    def_gain=1,             cuda_idx=7, ref='y', has_2nd_grad=True),
-    'softplus': dnnlib.EasyDict(func=lambda x, **_:         torch.nn.functional.softplus(x),            def_alpha=0,    def_gain=1,             cuda_idx=8, ref='y', has_2nd_grad=True),
-    'swish':    dnnlib.EasyDict(func=lambda x, **_:         torch.sigmoid(x) * x,                       def_alpha=0,    def_gain=np.sqrt(2),    cuda_idx=9, ref='x', has_2nd_grad=True),
+    'linear':   dnnlib.EasyDict(func=lambda x, **_:         x, def_alpha=0, def_gain=1, cuda_idx=1, ref='', has_2nd_grad=False),
+    'relu':     dnnlib.EasyDict(func=lambda x, **_:         torch.nn.functional.relu(x), def_alpha=0, def_gain=np.sqrt(2), cuda_idx=2, ref='y', has_2nd_grad=False),
+    'lrelu':    dnnlib.EasyDict(func=lambda x, alpha, **_:  torch.nn.functional.leaky_relu(x, alpha), def_alpha=0.2, def_gain=np.sqrt(2), cuda_idx=3, ref='y', has_2nd_grad=False),
+    'tanh':     dnnlib.EasyDict(func=lambda x, **_:         torch.tanh(x), def_alpha=0, def_gain=1, cuda_idx=4, ref='y', has_2nd_grad=True),
+    'sigmoid':  dnnlib.EasyDict(func=lambda x, **_:         torch.sigmoid(x), def_alpha=0, def_gain=1, cuda_idx=5, ref='y', has_2nd_grad=True),
+    'elu':      dnnlib.EasyDict(func=lambda x, **_:         torch.nn.functional.elu(x), def_alpha=0, def_gain=1, cuda_idx=6, ref='y', has_2nd_grad=True),
+    'selu':     dnnlib.EasyDict(func=lambda x, **_:         torch.nn.functional.selu(x), def_alpha=0, def_gain=1, cuda_idx=7, ref='y', has_2nd_grad=True),
+    'softplus': dnnlib.EasyDict(func=lambda x, **_:         torch.nn.functional.softplus(x), def_alpha=0, def_gain=1, cuda_idx=8, ref='y', has_2nd_grad=True),
+    'swish':    dnnlib.EasyDict(func=lambda x, **_: torch.sigmoid(x) * x, def_alpha=0, def_gain=np.sqrt(2), cuda_idx=9, ref='x', has_2nd_grad=True),
 }
 
 #----------------------------------------------------------------------------

diff --git a/torch_utils/ops/conv2d_gradfix.py → ...pytorch/torch_utils/ops/conv2d_gradfix.py b/torch_utils/ops/conv2d_gradfix.py → ...pytorch/torch_utils/ops/conv2d_gradfix.py
diff --git a/torch_utils/ops/conv2d_resample.py → ...ytorch/torch_utils/ops/conv2d_resample.py b/torch_utils/ops/conv2d_resample.py → ...ytorch/torch_utils/ops/conv2d_resample.py
@@ -105,19 +105,19 @@ def conv2d_resample(x, w, f=None, up=1, down=1, padding=0, groups=1, flip_weight
 
     # Fast path: 1x1 convolution with downsampling only => downsample first, then convolve.
     if kw == 1 and kh == 1 and (down > 1 and up == 1):
-        x = upfirdn2d.upfirdn2d(x=x, f=f, down=down, padding=[px0,px1,py0,py1], flip_filter=flip_filter)
+        x = upfirdn2d.upfirdn2d(x=x, f=f, down=down, padding=[px0, px1, py0, py1], flip_filter=flip_filter)
         x = _conv2d_wrapper(x=x, w=w, groups=groups, flip_weight=flip_weight)
         return x
 
     # Fast path: 1x1 convolution with upsampling only => convolve first, then upsample.
     if kw == 1 and kh == 1 and (up > 1 and down == 1):
         x = _conv2d_wrapper(x=x, w=w, groups=groups, flip_weight=flip_weight)
-        x = upfirdn2d.upfirdn2d(x=x, f=f, up=up, padding=[px0,px1,py0,py1], gain=up**2, flip_filter=flip_filter)
+        x = upfirdn2d.upfirdn2d(x=x, f=f, up=up, padding=[px0, px1, py0, py1], gain=up ** 2, flip_filter=flip_filter)
         return x
 
     # Fast path: downsampling only => use strided convolution.
     if down > 1 and up == 1:
-        x = upfirdn2d.upfirdn2d(x=x, f=f, padding=[px0,px1,py0,py1], flip_filter=flip_filter)
+        x = upfirdn2d.upfirdn2d(x=x, f=f, padding=[px0, px1, py0, py1], flip_filter=flip_filter)
         x = _conv2d_wrapper(x=x, w=w, stride=down, groups=groups, flip_weight=flip_weight)
         return x
 
@@ -136,7 +136,7 @@ def conv2d_resample(x, w, f=None, up=1, down=1, padding=0, groups=1, flip_weight
         pxt = max(min(-px0, -px1), 0)
         pyt = max(min(-py0, -py1), 0)
         x = _conv2d_wrapper(x=x, w=w, stride=up, padding=[pyt,pxt], groups=groups, transpose=True, flip_weight=(not flip_weight))
-        x = upfirdn2d.upfirdn2d(x=x, f=f, padding=[px0+pxt,px1+pxt,py0+pyt,py1+pyt], gain=up**2, flip_filter=flip_filter)
+        x = upfirdn2d.upfirdn2d(x=x, f=f, padding=[px0 + pxt, px1 + pxt, py0 + pyt, py1 + pyt], gain=up ** 2, flip_filter=flip_filter)
         if down > 1:
             x = upfirdn2d.upfirdn2d(x=x, f=f, down=down, flip_filter=flip_filter)
         return x
@@ -147,7 +147,7 @@ def conv2d_resample(x, w, f=None, up=1, down=1, padding=0, groups=1, flip_weight
             return _conv2d_wrapper(x=x, w=w, padding=[py0,px0], groups=groups, flip_weight=flip_weight)
 
     # Fallback: Generic reference implementation.
-    x = upfirdn2d.upfirdn2d(x=x, f=(f if up > 1 else None), up=up, padding=[px0,px1,py0,py1], gain=up**2, flip_filter=flip_filter)
+    x = upfirdn2d.upfirdn2d(x=x, f=(f if up > 1 else None), up=up, padding=[px0, px1, py0, py1], gain=up ** 2, flip_filter=flip_filter)
     x = _conv2d_wrapper(x=x, w=w, groups=groups, flip_weight=flip_weight)
     if down > 1:
         x = upfirdn2d.upfirdn2d(x=x, f=f, down=down, flip_filter=flip_filter)

diff --git a/torch_utils/ops/fma.py → stylegan2_ada_pytorch/torch_utils/ops/fma.py b/torch_utils/ops/fma.py → stylegan2_ada_pytorch/torch_utils/ops/fma.py
diff --git a/torch_utils/ops/grid_sample_gradfix.py → ...ch/torch_utils/ops/grid_sample_gradfix.py b/torch_utils/ops/grid_sample_gradfix.py → ...ch/torch_utils/ops/grid_sample_gradfix.py
diff --git a/torch_utils/ops/upfirdn2d.cpp → ...ada_pytorch/torch_utils/ops/upfirdn2d.cpp b/torch_utils/ops/upfirdn2d.cpp → ...ada_pytorch/torch_utils/ops/upfirdn2d.cpp
diff --git a/torch_utils/ops/upfirdn2d.cu → ..._ada_pytorch/torch_utils/ops/upfirdn2d.cu b/torch_utils/ops/upfirdn2d.cu → ..._ada_pytorch/torch_utils/ops/upfirdn2d.cu
diff --git a/torch_utils/ops/upfirdn2d.h → ...2_ada_pytorch/torch_utils/ops/upfirdn2d.h b/torch_utils/ops/upfirdn2d.h → ...2_ada_pytorch/torch_utils/ops/upfirdn2d.h
diff --git a/torch_utils/ops/upfirdn2d.py → ..._ada_pytorch/torch_utils/ops/upfirdn2d.py b/torch_utils/ops/upfirdn2d.py → ..._ada_pytorch/torch_utils/ops/upfirdn2d.py
diff --git a/torch_utils/persistence.py → ...n2_ada_pytorch/torch_utils/persistence.py b/torch_utils/persistence.py → ...n2_ada_pytorch/torch_utils/persistence.py
@@ -20,7 +20,7 @@
 import copy
 import uuid
 import types
-import dnnlib
+from stylegan2_ada_pytorch import dnnlib
 
 #----------------------------------------------------------------------------
 

diff --git a/torch_utils/training_stats.py → ...ada_pytorch/torch_utils/training_stats.py b/torch_utils/training_stats.py → ...ada_pytorch/torch_utils/training_stats.py
@@ -14,7 +14,7 @@
 import re
 import numpy as np
 import torch
-import dnnlib
+from .. import dnnlib
 
 from . import misc
 

diff --git a/train.py → stylegan2_ada_pytorch/train.py b/train.py → stylegan2_ada_pytorch/train.py
@@ -15,12 +15,13 @@
 import json
 import tempfile
 import torch
-import dnnlib
+from stylegan2_ada_pytorch import dnnlib
+
+from stylegan2_ada_pytorch.training import training_loop
+from stylegan2_ada_pytorch.metrics import metric_main
+from stylegan2_ada_pytorch.torch_utils import training_stats
+from stylegan2_ada_pytorch.torch_utils import custom_ops
 
-from training import training_loop
-from metrics import metric_main
-from torch_utils import training_stats
-from torch_utils import custom_ops
 
 #----------------------------------------------------------------------------
 
@@ -182,8 +183,8 @@ def setup_training_loop_kwargs(
     args.G_kwargs.synthesis_kwargs.conv_clamp = args.D_kwargs.conv_clamp = 256 # clamp activations to avoid float16 overflow
     args.D_kwargs.epilogue_kwargs.mbstd_group_size = spec.mbstd
 
-    args.G_opt_kwargs = dnnlib.EasyDict(class_name='torch.optim.Adam', lr=spec.lrate, betas=[0,0.99], eps=1e-8)
-    args.D_opt_kwargs = dnnlib.EasyDict(class_name='torch.optim.Adam', lr=spec.lrate, betas=[0,0.99], eps=1e-8)
+    args.G_opt_kwargs = dnnlib.EasyDict(class_name='torch.optim.Adam', lr=spec.lrate, betas=[0, 0.99], eps=1e-8)
+    args.D_opt_kwargs = dnnlib.EasyDict(class_name='torch.optim.Adam', lr=spec.lrate, betas=[0, 0.99], eps=1e-8)
     args.loss_kwargs = dnnlib.EasyDict(class_name='training.loss.StyleGAN2Loss', r1_gamma=spec.gamma)
 
     args.total_kimg = spec.kimg

diff --git a/training/__init__.py → stylegan2_ada_pytorch/training/__init__.py b/training/__init__.py → stylegan2_ada_pytorch/training/__init__.py
diff --git a/training/augment.py → stylegan2_ada_pytorch/training/augment.py b/training/augment.py → stylegan2_ada_pytorch/training/augment.py
@@ -9,11 +9,9 @@
 import numpy as np
 import scipy.signal
 import torch
-from torch_utils import persistence
-from torch_utils import misc
-from torch_utils.ops import upfirdn2d
-from torch_utils.ops import grid_sample_gradfix
-from torch_utils.ops import conv2d_gradfix
+from stylegan2_ada_pytorch.torch_utils import persistence, misc
+from stylegan2_ada_pytorch.torch_utils.ops import grid_sample_gradfix, upfirdn2d
+from stylegan2_ada_pytorch.torch_utils.ops import conv2d_gradfix
 
 #----------------------------------------------------------------------------
 # Coefficients of various wavelet decomposition low-pass filters.
@@ -279,7 +277,7 @@ def forward(self, images, debug_percentile=None):
             margin = torch.cat([-margin, margin]).max(dim=1).values # [x0, y0, x1, y1]
             margin = margin + misc.constant([Hz_pad * 2 - cx, Hz_pad * 2 - cy] * 2, device=device)
             margin = margin.max(misc.constant([0, 0] * 2, device=device))
-            margin = margin.min(misc.constant([width-1, height-1] * 2, device=device))
+            margin = margin.min(misc.constant([width - 1, height - 1] * 2, device=device))
             mx0, my0, mx1, my1 = margin.ceil().to(torch.int32)
 
             # Pad image and adjust origin.
@@ -298,7 +296,7 @@ def forward(self, images, debug_percentile=None):
             images = grid_sample_gradfix.grid_sample(images, grid)
 
             # Downsample and crop.
-            images = upfirdn2d.downsample2d(x=images, f=self.Hz_geom, down=2, padding=-Hz_pad*2, flip_filter=True)
+            images = upfirdn2d.downsample2d(x=images, f=self.Hz_geom, down=2, padding=-Hz_pad * 2, flip_filter=True)
 
         # --------------------------------------------
         # Select parameters for color transformations.
@@ -395,8 +393,8 @@ def forward(self, images, debug_percentile=None):
             p = self.Hz_fbank.shape[1] // 2
             images = images.reshape([1, batch_size * num_channels, height, width])
             images = torch.nn.functional.pad(input=images, pad=[p,p,p,p], mode='reflect')
-            images = conv2d_gradfix.conv2d(input=images, weight=Hz_prime.unsqueeze(2), groups=batch_size*num_channels)
-            images = conv2d_gradfix.conv2d(input=images, weight=Hz_prime.unsqueeze(3), groups=batch_size*num_channels)
+            images = conv2d_gradfix.conv2d(input=images, weight=Hz_prime.unsqueeze(2), groups=batch_size * num_channels)
+            images = conv2d_gradfix.conv2d(input=images, weight=Hz_prime.unsqueeze(3), groups=batch_size * num_channels)
             images = images.reshape([batch_size, num_channels, height, width])
 
         # ------------------------

diff --git a/training/dataset.py → stylegan2_ada_pytorch/training/dataset.py b/training/dataset.py → stylegan2_ada_pytorch/training/dataset.py
@@ -12,7 +12,7 @@
 import PIL.Image
 import json
 import torch
-import dnnlib
+from stylegan2_ada_pytorch import dnnlib
 
 try:
     import pyspng