support shard embeding #70

qingshui · 2021-07-29T02:51:47Z

PR types

PR changes

Describe

fix ins bug, add mean logloss gpu op

fix dataset read ins pipe

merge paddlebox

add gpu sample memory pool

use diff thres during pull sparse

conv相关代码合入

merge update

fix paddle complie infer

index_select_gather

index_select

add fill zero in fused_seqpool_cvm

add fused seq tensor && support transpose batch fc weight

* fused_seqpool_cvm_with_conv support filter by threshold * add fill zero in fused_seqpool_cvm * add fused seq tensor && support transpose batch fc weight --------- Co-authored-by: mojingcj <[email protected]> Co-authored-by: jiaoxuewu <[email protected]> Co-authored-by: yuandong1998 <[email protected]> Co-authored-by: shangzhongbin <[email protected]>

support h800

* fused_seqpool_cvm_with_conv support filter by threshold * add fill zero in fused_seqpool_cvm * add fused seq tensor && support transpose batch fc weight --------- Co-authored-by: mojingcj <[email protected]> Co-authored-by: jiaoxuewu <[email protected]> Co-authored-by: yuandong1998 <[email protected]> Co-authored-by: shangzhongbin <[email protected]>

fix fused query seq tensor compare case

…x blas gemm compute type

* fused_seqpool_cvm_with_conv support filter by threshold * add fill zero in fused_seqpool_cvm * add fused seq tensor && support transpose batch fc weight * fix fused query seq tensor compare case --------- Co-authored-by: mojingcj <[email protected]> Co-authored-by: jiaoxuewu <[email protected]> Co-authored-by: yuandong1998 <[email protected]> Co-authored-by: shangzhongbin <[email protected]>

…u thread num, fused_seqpool_cvm gpu memory alloc optimize

修复dump core问题，优化大数据写磁盘内存会超问题改成分段写入，优化fused_seqpool_cvm concat性能，优化fused_seqpool_cvm显存分配以及连续访问提升性能单op H800机型提升60倍整体提升25%

qingshui and others added 30 commits October 22, 2021 15:52

add enable shuffle by search id

9f78869

fix same fea in diffent slot

1188ee6

Merge pull request #17 from qingshui/paddlebox

638d3f1

fix ins bug, add mean logloss gpu op

fix dataset read ins barrier error

eb0a839

add fuse padding zero

4e577e7

Merge pull request #18 from qingshui/paddlebox

a8439c3

fix dataset read ins pipe

use diff thres during pull sparse

97e9cb3

Merge pull request #29 from jiaoxuewu/paddlebox

b4e0903

merge paddlebox

add sample gpu memory pool

75fae21

add sample gpu memory pool

30310f1

add sample pool gflags

b20e68a

Merge pull request #20 from qingshui/paddlebox

59cecad

add gpu sample memory pool

fix paddle complie infer

5ddceed

add shrink resouce interface

87cf876

Merge pull request #19 from spantarXP/diff_thres

6001463

use diff thres during pull sparse

upload conv releated code

0d20d45

upload conv releated code

f878b46

upload conv releate code

9bbfc01

Merge branch 'paddlebox' into paddlebox

b648b17

删除空行

b97d39b

Merge pull request #22 from songyuwen0808/paddlebox

eecb4d4

conv相关代码合入

add hbm recyle

772c33a

Merge pull request #30 from jiaoxuewu/paddlebox

4b223f8

merge update

add cuda10.2 and cuda11.4

075b552

Merge pull request #21 from qingshui/paddlebox

170de11

fix paddle complie infer

index_select_gather

27c8b44

Merge pull request #24 from zjhyj/zhaojunhao

495be05

index_select_gather

Merge pull request #31 from jiaoxuewu/paddlebox

f39b582

index_select

1. add local ssd cache mode

bd45afd

used default sample_pool and pull push dedup

69c0ba3

humingqing and others added 30 commits December 18, 2023 19:15

format

d7bd48e

add paddlebox git version

c297081

add fill zero in fused_seqpool_cvm

b888ec3

Merge pull request #74 from yuandong1998/paddlebox

1ee052d

add fill zero in fused_seqpool_cvm

fix auc monitor var gc bug

723a466

support h800

25f741e

add fused seq tensor && support transpose batch fc weight

08fbd50

Merge pull request #75 from shang1017/query_seq_slots

61fa982

add fused seq tensor && support transpose batch fc weight

rollback

2809f5f

Merge pull request #76 from qingshui/paddlebox

61a9d60

support h800

fix fused query seq tensor compare case

7acd059

Merge pull request #77 from shang1017/fix_query_seq_slots

5d50595

fix fused query seq tensor compare case

fix dump long field data coredump, add ins shuffle disable gflags, fi…

df4c00f

…x blas gemm compute type

cvr fused_seqpool_cvm embedding score optimize and concat add more gp…

dba488b

…u thread num, fused_seqpool_cvm gpu memory alloc optimize

fused_seqpool_cvm_with_conv sync opt gpu memory alloc and access

4d8475c

fused_seqpool_cvm_with_conv sync opt gpu memory alloc and access

4eea345

fix param

bb31426

format

a4297df

opt embedding score

b3d53e6

merge master

ccd12e6

roll double opt show click filter

4163165

Merge pull request #78 from qingshui/paddlebox

6e0fd9b

修复dump core问题，优化大数据写磁盘内存会超问题改成分段写入，优化fused_seqpool_cvm concat性能，优化fused_seqpool_cvm显存分配以及连续访问提升性能单op H800机型提升60倍整体提升25%

fix h800 nccl hang

22cbb09

rollbak fix h800 nccl hang

843e95d

rollback fix h800 hang

8ad4c19

add montior data type check, fix pred=1.0 bug

d0d990e

fix multi node sum ins error

fab4cfd

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

support shard embeding #70

support shard embeding #70

qingshui commented Jul 29, 2021

support shard embeding #70

Are you sure you want to change the base?

support shard embeding #70

Conversation

qingshui commented Jul 29, 2021

PR types

PR changes

Describe