[Sharding] add new features #28568

JZ-LIANG · 2020-11-12T03:47:21Z

PR types

New features

PR changes

OPs

Describe

fixed bug
op role
add_sync_comm_for_test: fixed bug when clone test prog
add new features
comm_analyse: calculating communication volume
sharding_save_persistables: save sharding model

usage:

import paddle
import paddle.fluid as fluid
import fleetx as X
from paddle.distributed.fleet.meta_optimizers.sharding.utils import add_sync_comm_for_test, sharding_save_persistables, comm_analyse

dist_strategy = fleet.DistributedStrategy()
dist_strategy.sharding = True
dist_strategy.sharding_configs = {
    "fuse_broadcast_MB": 32,
}

model = X.applications.Resnet50(data_layout=args.data_layout)
optimizer = fluid.optimizer.Momentum(
    learning_rate=lr,
    momentum=args.momentum,
    regularization=fluid.regularizer.L2Decay(args.weight_decay))
optimizer = fleet.distributed_optimizer(optimizer, strategy=dist_strategy)
optimizer.minimize(model.loss)

# Clone test program
# when use sharding, test prog clone should be performed after optimizer.minimize(model.loss)
model.test_prog = model.main_prog.clone(for_test=True)
add_sync_comm_for_test(model.test_prog, dist_strategy)

place = fluid.CUDAPlace(int(os.environ.get('FLAGS_selected_gpus', 0)))
exe = fluid.Executor(place)
exe.run(model.startup_prog)

# Analyse COMM 
comm_analyse(fluid.default_main_program())

# Load model
# we could use the orign load_persistables for sharding model
# make sure the dirname contains all the param files for every rank
dirname="/path/to/load_model"  
paddle.fluid.io.load_persistables(exe, dirname, main_program=model.main_prog, filename=None)

# Training
for epoch in range(10):
......

# Save model
# every rank should execute the following function to save a complete sharding model, 
# unlike data parallelism where only the rank0 handles the model saving
dirname="/path/to/save_model"  
sharding_save_persistables(exe, dirname, main_program=model.main_prog, filename=None)

…elop

…strategy

paddle-bot-old · 2020-11-12T03:47:25Z

Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

fuyinno4 · 2020-11-18T11:40:02Z

python/paddle/distributed/fleet/meta_optimizers/sharding/utils.py

+    return
+
+
+def sharding_save_persistables(exe, dirname, main_program, filename=None):


change the name

JZ-LIANG added 30 commits August 2, 2020 11:41

add lars to fleet meta optimizer

22ffdaf

add lamb to proto

c545f52

Merge remote-tracking branch 'upstream/develop' into develop

924b809

add lamb to fleet meta optimizer

e6715ea

Merge remote-tracking branch 'upstream/develop' into develop

ae9a670

fixed syntax bug

ef1f0f7

Merge remote-tracking branch 'upstream/develop' into develop

62e70c8

fixed syntax bug

d3ca244

Merge remote-tracking branch 'upstream/develop' into develop

aa16436

Merge remote-tracking branch 'upstream/develop' into develop

886af05

Merge branch 'develop' of https://github.com/JZ-LIANG/Paddle into dev…

edac5cf

…elop

fixed syntax error in lamb, add config setter of lamb in distributed_…

4c120b9

…strategy

Merge remote-tracking branch 'upstream/develop' into develop

da72689

trigger unitest to rerun

7ac5f70

Merge remote-tracking branch 'upstream/develop' into develop

e2509a4

Merge remote-tracking branch 'upstream/develop' into develop

5750550

Merge remote-tracking branch 'upstream/develop' into develop

2dcbfd7

add new unitest func for lamb

afac86c

Merge remote-tracking branch 'upstream/develop' into develop

b48524f

revise unitest for lars and lamb

25eb5d7

Merge remote-tracking branch 'upstream/develop' into develop

636247e

revise dgc meta unitest

fd20cd7

Merge remote-tracking branch 'upstream/develop' into develop

63c975b

Merge remote-tracking branch 'upstream/develop' into develop

bc1b8cb

Merge remote-tracking branch 'upstream/develop' into develop

ba24ac6

Merge remote-tracking branch 'upstream/develop' into develop

e7ed577

Merge remote-tracking branch 'upstream/develop' into develop

99df42e

Merge remote-tracking branch 'upstream/develop' into develop

7164e64

Merge remote-tracking branch 'upstream/develop' into develop

28b3696

revise lars document in distribute_strategy

d781c20

JZ-LIANG added 19 commits September 2, 2020 17:41

Merge remote-tracking branch 'upstream/develop' into develop

f956afd

revise unitest for fleet lars and lamb

c5330df

Merge remote-tracking branch 'upstream/develop' into develop

a93f2ff

revise lars lamb unitest for CI coverage

4787675

Merge remote-tracking branch 'upstream/develop' into develop

0b6ae1e

Merge remote-tracking branch 'upstream/develop' into develop

a711dde

Merge remote-tracking branch 'upstream/develop' into develop

d19f136

revise lars argument api

54d01d3

revise lars argument api

310c3e3

revise lars argument api

4b4eae2

Merge remote-tracking branch 'upstream/develop' into develop

9453465

Merge remote-tracking branch 'upstream/develop' into develop

9dc42d9

revise api doc of lars

a2af500

Merge remote-tracking branch 'upstream/develop' into develop

6c2d456

Merge remote-tracking branch 'upstream/develop' into develop

6218e6d

Merge remote-tracking branch 'upstream/develop' into develop

5752e14

Merge remote-tracking branch 'upstream/develop' into develop

b67497b

fix op role

e7cc79b

add sharding save and add_sync_comm_for_test function

e511a2d

JZ-LIANG added 7 commits November 16, 2020 12:18

add comm_analyse to utlis

db8c661

Merge remote-tracking branch 'upstream/develop' into zero-dev

003ad54

revise sharding_utils

b70a847

Merge remote-tracking branch 'upstream/develop' into zero-dev

3291195

add sharding saving unittest

c73d63c

Merge remote-tracking branch 'upstream/develop' into zero-dev

695bdc5

revise sharding utils for unittest

f841ba8

fuyinno4 approved these changes Nov 18, 2020

View reviewed changes

fuyinno4 merged commit 5a9f688 into PaddlePaddle:develop Nov 18, 2020

fuyinno4 reviewed Nov 18, 2020

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Sharding] add new features #28568

[Sharding] add new features #28568

JZ-LIANG commented Nov 12, 2020 •

edited

Loading

paddle-bot-old bot commented Nov 12, 2020

fuyinno4 Nov 18, 2020

		return


		def sharding_save_persistables(exe, dirname, main_program, filename=None):

[Sharding] add new features #28568

[Sharding] add new features #28568

Conversation

JZ-LIANG commented Nov 12, 2020 • edited Loading

PR types

PR changes

Describe

paddle-bot-old bot commented Nov 12, 2020

fuyinno4 Nov 18, 2020

Choose a reason for hiding this comment

JZ-LIANG commented Nov 12, 2020 •

edited

Loading