Learning Deep Transformer Models for Machine Translation on Fairseq

The implementation of Learning Deep Transformer Models for Machine Translation [ACL 2019] (Qiang Wang, Bei Li, Tong Xiao, Jingbo Zhu, Changliang Li, Derek F. Wong, Lidia S. Chao)

This code is based on Fairseq v0.5.0

Installation

pip install -r requirements.txt
python setup.py develop
python setup.py install

NOTE: test in torch==0.4.1

Prepare Training Data

Download the preprocessed WMT'16 En-De dataset provided by Google to project root dir
Generate binary dataset at data-bin/wmt16_en_de_google

bash runs/prepare-wmt-en2de.sh

Train

Train deep pre-norm baseline (20-layer encoder)

bash runs/train-wmt-en2de-deep-prenorm-baseline.sh

Train deep post-norm DLCL (25-layer encoder)

bash runs/train-wmt-en2de-deep-postnorm-dlcl.sh

Train deep pre-norm DLCL (30-layer encoder)

bash runs/train-wmt-en2de-deep-prenorm-dlcl.sh

NOTE: BLEU will be calculated automatically when finishing training

Results

Model	#Param.	Epoch*	BLEU
Transformer (base)	65M	20	27.3
Transparent Attention (base, `16L`)	137M	-	28.0
Transformer (big)	213M	60	28.4
RNMT+ (big)	379M	25	28.5
Layer-wise Coordination (big)	210M*	-	29.0
Relative Position Representations (big)	210M	60	29.2
Deep Representation (big)	356M	-	29.2
Scailing NMT (big)	210M	70	29.3
Our deep pre-norm Transformer (base, `20L`)	106M	20	28.9
Our deep post-norm DLCL (base, `25L`)	121M	20	29.2
Our deep pre-norm DLCL (base, `30L`)	137M	20	29.3

NOTE: * denotes approximate values.

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
examples		examples
fairseq		fairseq
runs		runs
scripts		scripts
tests		tests
.gitignore		.gitignore
CONTRIBUTING.md		CONTRIBUTING.md
LICENSE		LICENSE
PATENTS		PATENTS
README.md		README.md
distributed_train.py		distributed_train.py
eval_lm.py		eval_lm.py
fairseq.gif		fairseq.gif
generate.py		generate.py
interactive.py		interactive.py
multiprocessing_train.py		multiprocessing_train.py
preprocess.py		preprocess.py
requirements.txt		requirements.txt
score.py		score.py
setup.py		setup.py
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Learning Deep Transformer Models for Machine Translation on Fairseq

Installation

Prepare Training Data

Train

Train deep pre-norm baseline (20-layer encoder)

Train deep post-norm DLCL (25-layer encoder)

Train deep pre-norm DLCL (30-layer encoder)

Results

About

Releases

Packages

Languages

License

wangqiangneu/dlcl

Folders and files

Latest commit

History

Repository files navigation

Learning Deep Transformer Models for Machine Translation on Fairseq

Installation

Prepare Training Data

Train

Train deep pre-norm baseline (20-layer encoder)

Train deep post-norm DLCL (25-layer encoder)

Train deep pre-norm DLCL (30-layer encoder)

Results

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages