Modify the reduce op according to the kernel primitive api #35282

AnnaTrainingG · 2021-08-31T01:47:47Z

PR types

Performance optimization

PR changes

OPs

Describe

Modify the reduce OP according to the kernel primitive api
Add ReduceHigherDimKernel and ReduceAnyKernel for higher performance in reduce_op.cu.h
Add API comments and specify variable names

1.Modify the reduce OP according to the kernel primitive api
适配kernel primitives api，保证性能功能和提前保持一致

reduce Any 替换前后性能变化：

axis	case	old us	api us	speed up
[2, 3]	[16, 2048, 33, 33]	175.75	176.65	0.99
[0, 3]	[32, 12, 128, 128]	35.268	35.559	0.99
[1, 3]	[16, 32, 32, 32]	4.936	4.287	1.15
[1, 3]	[16, 64, 512, 64]	155.58	155.06	1.00
[1, 3]	[16, 2048, 32, 32]	172.312	172.162	1.00
[1, 3]	[16, 32, 2048, 32]	157.6	157.53	1.00
[0, 2]	[16, 2048, 32, 32]	160.95	160.53	1.00
[0, 2]	[16, 32, 2048, 32]	159.832	160.614	1.00
[0, 2]	[16, 2048, 33, 33]	179.86	178.95	1.01
[0, 2]	[16, 33, 2048, 33]	236.8	231.78	1.02

reduceHigher 替换前后性能变化：

	axis	case	pytorch us	paddle_old us	api us	speed up
0	axis=1	[16, 8, 128]	3.48	1.571	1.577	1.00
1	axis=0	[512 2048]	12.32	11.65	11.662	1.00
2	axis=0	[30522 1024]	160.66	152.68	153.41	1.00
3	axis=0	[32768 1280]	205.95	196.35	197.328	1.00
4	axis=0	[30522 10240]	1414.6	1409.20	1407.32	1.00
5	axis=0	[1024 1280]	8.265	9.37	9.39	1.00
6	axis=0	[30522 10240]	1415.5	1409.22	1407.18	1.00
7	axis=0	[2560 10240]	127.21	126.91	126.672	1.00
8	axis=0	[10240 1280]	77.276	69.44	69.418	1.00
9	axis=0	[32768 2560]	389.59	384.98	386.04	1.00
10	axis=0	[30522 1024]	161.01	152.43	152.966	1.00
11	axis=0	[32768 1280]	207.58	196.70	197.694	0.99
12	axis=0	[1024 1280]	7.949	9.06	9.39	0.97
13	axis=0	[256 12800]	18.259	20.65	21.592	0.96
14	axis=0	[256 10240]	15.742	19.10	20.039	0.95
15	axis=0	[128 1024]	5.535	4.88	5.23	0.93
16	axis=0	[16, 16, 1, 1]	3.117	1.882	2.262	0.83
17	axis=0	[1024 16]	4.656	4.07	5.36	0.76

2: Add ReduceHigherDimKernel and ReduceAnyKernel for higher performance in reduce_op.cu.h
背景：reduce在adaptive_avg_pool fp16类型适配时出现性能下降问题，case： 4 2048 64 128, 从之前的153.44us下降至174us，性能下降超过10%，
原因：定位发现在reduceLastDim和ReduceAny代码整合后，在只进行最后一维度reduce时，相比之前存在额外的index计算操作，导致性能下降。
解决办法：在CPU端根据reduce_type 分别调用各自的ReduceKernel，1. 能够减少在GPU reduce_type判断，2.根据是否为最后一维reduce设置index计算规则。
修改后的性能比对数据如下：
benchmark adaptive_avg_pool性能变化， fp16类型使用fp32类型计算，因此性能会出现下降

case	dtype	old us	new us	sped up
4 2048 64 128	fp32	303.55	304.69	1.00
4 2048 64 128	fp16	153.44	155.83	0.98

Add API comments and specify variable names
主要修改如下：
1.规范专用于reduce操作的变量命名，修改为kReduceMaxThread
2.统一设定block_offset表示当前block的数据起始位置。
3.统一设定thread_offset表示当前线程的数据起始位置。
4.添加关于ReduceMode的说明，kGlobalMode 表示block内线程间的规约，需要使用到shareMem以及线程同步，一个输出依赖于block内所有线程的数据；kLocalMode：表示线程内的数据规约，线程间没有数据依赖，每个线程计算结束得到一个结果。

update

paddle-bot-old · 2021-08-31T01:47:51Z

Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

update

… reduce_primitive_api

paddle/fluid/operators/reduce_ops/reduce_functor_op.h

paddle/fluid/operators/reduce_ops/reduce_op.cu.h

paddle/fluid/operators/kernel_primitives/datamover_primitives.h

paddle/fluid/operators/reduce_ops/reduce_op.cu.h

update

… reduce_primitive_api

xingfeng01 · 2021-09-07T01:57:06Z

LGTM

ZzSean · 2021-09-07T03:12:39Z

LGTM

limin2021 · 2021-09-07T03:29:04Z

LGTM for modifications in attn_bias_add.cu.h.

lanxianghit

LGTM

Xreki

LGTM. 一些代码层面的优化建议，可以后续提PR修改下。

paddle/fluid/operators/kernel_primitives/datamover_primitives.h

paddle/fluid/operators/kernel_primitives/helper_primitives.h

paddle/fluid/operators/reduce_ops/reduce_op.cu.h

…dle#35282)

AnnaTrainingG and others added 19 commits March 25, 2021 16:46

Merge pull request #1 from PaddlePaddle/develop

7d58b91

update

Merge pull request #2 from PaddlePaddle/develop

1021e08

update

Merge pull request #3 from PaddlePaddle/develop

43f53fe

update

Merge pull request #4 from PaddlePaddle/develop

d25ab26

update

Merge pull request #5 from PaddlePaddle/develop

8c8717f

update

Merge pull request #6 from PaddlePaddle/develop

9ddf5e8

update

Merge pull request #9 from PaddlePaddle/develop

b0cbcca

update

Merge pull request #14 from PaddlePaddle/develop

cdecaf0

update

Merge pull request #16 from PaddlePaddle/develop

0da14c9

update

Merge pull request #17 from PaddlePaddle/develop

ca95763

update

Merge pull request #18 from PaddlePaddle/develop

25ba21c

update

Merge pull request #19 from PaddlePaddle/develop

3ce9983

update

Merge pull request #20 from PaddlePaddle/develop

61842ed

update

Merge pull request #21 from PaddlePaddle/develop

0e2c73b

update

Merge pull request #22 from PaddlePaddle/develop

c1e59cf

update

Merge pull request #23 from PaddlePaddle/develop

3a54149

update

Merge pull request #24 from PaddlePaddle/develop

7addd79

update

Merge pull request #25 from PaddlePaddle/develop

1e843d1

update

commit for pool higher preformance

2783c76

AnnaTrainingG and others added 5 commits August 31, 2021 01:53

update ReduceMode

73d13a3

update ReduceMode

b0e3fdb

Merge pull request #26 from PaddlePaddle/develop

e1a92d6

update

Merge branch 'develop' of https://github.com/niuliling123/Paddle into…

9349c38

… reduce_primitive_api

Add API comments and specify variable names

2c32248

xingfeng01 reviewed Sep 2, 2021

View reviewed changes

paddle/fluid/operators/reduce_ops/reduce_functor_op.h Show resolved Hide resolved

paddle/fluid/operators/reduce_ops/reduce_op.cu.h Outdated Show resolved Hide resolved

paddle/fluid/operators/reduce_ops/reduce_op.cu.h Outdated Show resolved Hide resolved

AnnaTrainingG mentioned this pull request Sep 2, 2021

Modify the reduce op according to the kernel primitive API #35111

Closed

zhangting2020 reviewed Sep 3, 2021

View reviewed changes

paddle/fluid/operators/kernel_primitives/datamover_primitives.h Outdated Show resolved Hide resolved

paddle/fluid/operators/kernel_primitives/datamover_primitives.h Show resolved Hide resolved

ZzSean reviewed Sep 3, 2021

View reviewed changes

paddle/fluid/operators/reduce_ops/reduce_op.cu.h Show resolved Hide resolved

ZzSean reviewed Sep 3, 2021

View reviewed changes

paddle/fluid/operators/reduce_ops/reduce_op.cu.h Show resolved Hide resolved

AnnaTrainingG and others added 6 commits September 3, 2021 16:01

Merge pull request #27 from PaddlePaddle/develop

05da032

update

update

840a652

update

fc36b45

Merge pull request #28 from PaddlePaddle/develop

e1fe6dc

update

Merge branch 'develop' of https://github.com/niuliling123/Paddle into…

d9b9f42

… reduce_primitive_api

update detail to details

51f2f77

xingfeng01 approved these changes Sep 7, 2021

View reviewed changes

lanxianghit approved these changes Sep 7, 2021

View reviewed changes

Xreki approved these changes Sep 7, 2021

View reviewed changes

AnnaTrainingG changed the title ~~Add ReduceHigherDimKernel and ReduceAnyKernel for higher performance in reduce_op.cu.h~~ Modify the Reduce OP according to the kernel primitive API Sep 7, 2021

AnnaTrainingG changed the title ~~Modify the Reduce OP according to the kernel primitive API~~ Modify the Reduce OP according to the kernel primitive api Sep 7, 2021

AnnaTrainingG changed the title ~~Modify the Reduce OP according to the kernel primitive api~~ Modify the reduce op according to the kernel primitive api Sep 7, 2021

Xreki merged commit 82b33be into PaddlePaddle:develop Sep 8, 2021

2742195759 pushed a commit to 2742195759/Paddle that referenced this pull request Sep 10, 2021

Modify the reduce op according to the kernel primitive api (PaddlePad…

15523e5

…dle#35282)

AnnaTrainingG added a commit to AnnaTrainingG/Paddle that referenced this pull request Sep 29, 2021

Modify the reduce op according to the kernel primitive api (PaddlePad…

b2cf4e0

…dle#35282)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Modify the reduce op according to the kernel primitive api #35282

Modify the reduce op according to the kernel primitive api #35282

AnnaTrainingG commented Aug 31, 2021 •

edited

Loading

paddle-bot-old bot commented Aug 31, 2021

xingfeng01 commented Sep 7, 2021

ZzSean commented Sep 7, 2021

limin2021 commented Sep 7, 2021

lanxianghit left a comment

Xreki left a comment

Modify the reduce op according to the kernel primitive api #35282

Modify the reduce op according to the kernel primitive api #35282

Conversation

AnnaTrainingG commented Aug 31, 2021 • edited Loading

PR types

PR changes

Describe

paddle-bot-old bot commented Aug 31, 2021

xingfeng01 commented Sep 7, 2021

ZzSean commented Sep 7, 2021

limin2021 commented Sep 7, 2021

lanxianghit left a comment

Choose a reason for hiding this comment

Xreki left a comment

Choose a reason for hiding this comment

AnnaTrainingG commented Aug 31, 2021 •

edited

Loading