码涯-AIGC代码仓库-openoker/DeepSpeed: DeepSpeed是一个深度学习优化库，它使分布式训练和推理变得简单、高效。 @ lekurile/clean_up

分支: lekurile/clean_up_params

AutoPR/0.12.2

AutoPR/0.14.0

AutoPR/0.14.5

CUDA-Graph-support

HeyangQin/deepspeed-ulysses-chinese-blog

HeyangQin/enable_hpz_nograd

HeyangQin/fastgen_moe_h100

HeyangQin/fix_hpz_nograd

HeyangQin/fix_issue_3062

HeyangQin/fix_issue_3068

HeyangQin/fix_issue_3156

HeyangQin/fix_issue_5205

HeyangQin/fix_pr_3462_standalone

HeyangQin/hpz_convergence

HeyangQin/inference_t5_phase1

HeyangQin/mixed_precision_lora_sam

HeyangQin/mixz_tutorial

HeyangQin/skip_bias_quant

HeyangQin/staging-zero-pp-v1

HeyangQin/ucp_blog_chinese

HeyangQin/ulysses_fp8

Megtron-Kernel-Integration

SA_feature_tag

SA_tutorial_update

SA_update_tutorial_link

add-bfp16-support

add-comm-layout

add-inference-comm

add-llama2-support

add-quantizer

add-shared-lib

adk9/phi3-inference

adk9/phi3-small

adk9/update-minor-cuda

amawa/1-bit-alltoall

amawa/1bit-adam-nccl

amawa/add-moe-container

amawa/aml-get-hosts

amawa/auto-save-ckpt

amawa/config-pass-down

amawa/debug

amawa/fix-amd-rocm

amawa/fix-auto-tp-load-ckpt

amawa/fix-tracer-zero3

amawa/fix-z3-for-hf-accelerate

amawa/fix-z3-warn-print-v2

amawa/inference-fix

amawa/remove-deepcopy

amawa/split-a2a

amawa/zero-inf-refactor

amd-jiting

aml-autotuner

arashb-patch-1

arashb/fix-phi-2

arpan/auto-check

autocast-fix

awan-10-patch-1

awan-10-patch-2

awan-10-patch-3

azure

big-science

big-science-v2

bing/debugging

bing/ds-adam

bing/formatting-correction

bing/io-tutorial

bing/modify-ds-optimizer

bing/optimizer-naming

bloom-debug

chatgpt-chinese-blog

check-linear-sizes

cholmes/activation-utils

cholmes/checkpoints-inference-v2-2

cholmes/comm-group-cache

cholmes/fix-asym-quant

cholmes/fix_reduction_utils_amd

cholmes/isolate-src-code

cholmes/kv-cache-flexibility

cholmes/mem-access-predicated-load

cholmes/migrate-to-dequant-lib

cholmes/pipelined-quant

cholmes/reduce-quantized-gpus

cholmes/sd-extension

cholmes/ts-builder

cholmes/unique-cuda-graphs

ckpt-fix-unfused

clean-llama

clean-llama-v2

clean-opt

clean-opt-base

clean-opt-v2

clean-opt-v2-base

codegen-inference

comm-opt2

costineseanu/windows_inference_build

cpu-adam/optional_CUDA-copy

debug-base-attn

debug-ds-inf

debug-ds-inf-torch-matmul

ds-chat-blog-8-31

ds-chat-clean-opt

ds-chat-news

ds-chat-release

ds-inference/add-falcon-support

ds-inference/bloom-support-meta

ds-inference/fix-generation

ds-inference/fix-mp

ds-inference/remove-randgen

ds-inference/simplify

ds-inference/support-large-token-length

ds-seq-tutorial

ds-vchat-blog-v1

ds-vchat-blog-v2

duli/capability

duli/cuda_op_builder

duli/op_builder

duli/pre_post

duli/zero_debugging

elastic-ckpt-refresh

elasticity-v2

eltonz/copy_grad_stream

enable-neox

encoded-ds-config

fairseq-moe

fairseq-moe-debug

falcon-180b

fastgen-blog

fastgen-blog-2

features/rebase-quant-fp6

fix-MoQ

fix-autotuning-docs

fix-autotuning-exit

fix-autotuning-reqs

fix-flops-profiler

fix-fp16-test

fix-injection

fix-max_train_batch_size

fix-misaligned-grad

fix-moe-top1gating

fix-sp-dense

fix-sparse-attn

fix-tuner-prescale_gradients

fix-tuner-scheduler-bug

fix-twitter

fix-typos

fix_mpu_ckpt

flash-attention

flops-profiler-skip-unused-args

fp6-blog

fs-82

fs-soft-kernel

fs-z2-fix

fs/soft-kernel

gcooper/make_optimizer_optional

generic-ckpt-loading

gh-pages

gh-readonly-queue/master/pr-3852-3491e32d72746ec3d990108a23e67b2666b3e0e0

gh-readonly-queue/master/pr-3852-adb9bc14b780115fd54f3f1234abcb7ab52fa975

gh-readonly-queue/master/pr-3854-85503dab878875175b6d5eb6a39125878c172273

gh-readonly-queue/master/pr-3892-548451ba4e8ea71029d738c33f639e0439aad1dd

gh-readonly-queue/master/pr-3892-9f8817b2425bb82d9b6355caa6d2d0ebd036885d

gh-readonly-queue/master/pr-3893-cc71eec8c85c4437d8139e53372da7f22224fed5

gh-readonly-queue/master/pr-3928-82115d9059ce8271229c8f63153a02f2d323cfc1

gh-readonly-queue/master/pr-4163-5e16eb2c939707d0d0062a458d77998fccb3afad

gma/xpu_compile_analysis

good-moe

gpt2-debug

guanhua/adam-timer

guanhua/adam-timer2

guanhua/check-bf16

guanhua/fix-cutlass-ver

guanhua/h2d-offload

guanhua/kernel-test

guanhua/mics-fix

guanhua/overflow-check

guanhua/quant-dequant-test

guanhua/quant-test

guanhua/rocm-cpu-adam

guanhua/v14.0-bf16-check

hf-workaround

hp-sam

hpzero-preview

inference-api/tutorial

inference-read-checkpoint

inference-refactor-v1-mro-test

inference/ElutherAI-GPTJ

inference/TP-general-support

inference/add-bf16-support

inference/engine-api

inference/fix-masking

inference/fix-mp-init

inference/support-encoder-decoder

injection-fixes

jeff-test

jeffra-patch-2

jeffra/1node-launcher-fix

jeffra/2904

jeffra/auto-bucket

jeffra/available_memory

jeffra/bf16-updates

jeffra/bf16-updates-v2

jeffra/ci-updates

jeffra/ckpt-barrier

jeffra/docker-update

jeffra/engine-xthru

jeffra/engine-xthru-v2

jeffra/engine-xthru-v2-no-padding

jeffra/external-skip

jeffra/fix-1416

jeffra/fs-diverge

jeffra/fs-gas-fix

jeffra/fs-gas-fix-v2

jeffra/fs-support

jeffra/fs-z3

jeffra/fs-z3-v0510

jeffra/gptj-fixes

jeffra/inf-engine-refactor

jeffra/inf-tests

jeffra/jit-fix

jeffra/latest-hf

jeffra/op-build-api

jeffra/prepost_fwd_and_generate

jeffra/saksham-zero1-fixes

jeffra/savepid2

jeffra/shm-report

jeffra/staging-comms-logging-v1

jeffra/turn-on-opt-test

jeffra/update-z3-check

jeffra/z1-refresh

jeffra/z1-refresh-2

jeffra/z1-refresh-3

jeffra/z3-fix

jeffra/z3-new-param

jeffra/zero-1-fix

jeffra/zero-1-fix-test

jeffra/zero-ckpt-fixes

jeffra/zero-moe-noCG

jeffra/zero1-grad-norm

jerasley/mac

jomayeri/aio-file-offset

jomayeri/aio-locked-tensor

jomayeri/aio-mem-fix

jomayeri/aio-type-mismatch

jomayeri/bf16-zero-check

jomayeri/bug-5880

jomayeri/debug-2361

jomayeri/deepnvme-perf-debug

jomayeri/destroy-zero

jomayeri/fp8-init

jomayeri/gds-swapper-fix

jomayeri/h100-unittest

jomayeri/he-mp-assert

jomayeri/issue-3367

jomayeri/issue-3560

jomayeri/issue-3598

jomayeri/issue-3769

jomayeri/issue-4083

jomayeri/issue-4095

jomayeri/issue-4183

jomayeri/issue-5087

jomayeri/lr-step-init

jomayeri/lr-step-move

jomayeri/model-param-list

jomayeri/new-zero-accum

jomayeri/swap-with-locked

jomayeri/zero-grad-accum

jomayeri/zero3-hooks

kv-cache-reset

landing-training

landing-updates

lekurile/add_ds_chat_workflow

lekurile/add_hip_abstraction

lekurile/clean_up_params

lekurile/container_param_cleanup

lekurile/ds_chat_attn_mlp_base

lekurile/ds_chat_fix_test

lekurile/ds_chat_gh_wf

lekurile/ds_chat_mlp_debug

lekurile/ds_chat_revert_54c06872

lekurile/ds_chat_test_54c06872

lekurile/ds_chat_test_7b5b0660

lekurile/ds_chat_test_exit_first

lekurile/ds_chat_test_f69f8840

lekurile/fix_ds_chat_bloom

lekurile/fix_formatting

lekurile/fix_he_print

lekurile/fix_issue_2330

lekurile/fix_opt_meta_tensor

lekurile/fix_phi_2

lekurile/fix_sd

lekurile/fix_sd_ci

lekurile/fix_unet_vae

lekurile/general_local_cg

lekurile/infv2_lm_eval

lekurile/kernel_hip_amd

lekurile/load_ckpt_inf_eng

lekurile/mlp_functions

lekurile/offload_fix_test

lekurile/sd_min_ver

lekurile/test_rearrange_ops

lekurile/update_ds_chat_ci

lekurile/update_ds_chat_ci_2

lekurile/update_ds_chat_ci_test

lekurile/update_dschat_wf

lekurile/update_inf_ckpt_load

lf-test

loadams/adam-params

loadams/add-contributing-release-md-files

loadams/add-gaudi-badge-readme

loadams/add-scheduled-open-issue-check-ds-chat

loadams/add-torch-2-support

loadams/amd-57

loadams/amd-mi200-tests

loadams/amd-pre-compile

loadams/amd-updates

loadams/auto-stage3-prefetch-bucket-size

loadams/auto-task-open-failure

loadams/build-for-cpu

loadams/changes-to-op-builder

loadams/check-pydantic-v2-support

loadams/clear-cache

loadams/cpu-inf

loadams/cpu-inf-triggers

loadams/cpu-inf-v0-docker

loadams/cpu-inference-shorten

loadams/cpu-torch

loadams/cu118

loadams/debug-torch

loadams/disable-h100-ci

loadams/disable-windows-ops-build-script

loadams/dot-deepspeed_env-test

loadams/dpkg-libaio

loadams/empty-env-var-setup

loadams/enable-amdmi200

loadams/enable-workflow-dispatch-nv-torch-nightly-v100

loadams/engine-pos-args

loadams/fix-check-valid-version

loadams/fix-cpu-inf-test-time

loadams/fix-cuda-build-ops

loadams/fix-fp16-bf16-logging-issue

loadams/fix-hpu

loadams/fix-lightning-pytorch2

loadams/fix-mpi4py

loadams/fix-nccl-comm-torch-check

loadams/fix-no-torch-failure-mlu

loadams/fix-nv-inference

loadams/fix-nv-inference-hang

loadams/fix-nv-torch-latest-v100

loadams/fix-onebit-skip

loadams/fix-torch-2

loadams/fix-torch-compiler-hasattr

loadams/fix-triggers-no-torch-workflow

loadams/flops-profiler-scaled-dor-attn-torch-2

loadams/get-amd-team-ci

loadams/gh-cpu-inf

loadams/gh-release-version-update

loadams/hf-transformers-ci-fix

loadams/hpu-uts

loadams/ignore-unused-params-default

loadams/lamb-bf16

loadams/libaio

loadams/low-cpu-mem-ut

loadams/lsb-release

loadams/megatron

loadams/megatron-lm-112

loadams/megatron-new-pypi

loadams/megatron-version

loadams/more-torch-2-support

loadams/nv-inf-jobs-test

loadams/nv-inf-test

loadams/nv-inference-revert

loadams/nv-nightly

loadams/nv-nightly-fix-transformers

loadams/nv-sd-badge

loadams/openmpi-eth0

loadams/pin-torch-latest-ver

loadams/py36

loadams/pynvml

loadams/recurse-flops-profiler

loadams/reenable-cpu-inference

loadams/remove-dead-code

loadams/remove-modeling

loadams/remove-python-36-check

loadams/rename-fp-quantize-cu

loadams/rename-nv-torch-latest-cpu-workflow

loadams/revert-4660

loadams/revert-5608

loadams/revert-cpu-inf

loadams/revert-loss

loadams/revert-nv-inference-changes

loadams/revert-pr-5608

loadams/revert-userwarning

loadams/rocm-fixes

loadams/rocm57

loadams/rocm6

loadams/sd-paths

loadams/setup-h100-triggers

loadams/sigterm

loadams/skip-nv-inference

loadams/sparse-attn-fix

loadams/sparse-attn-torch-2

loadams/stablediffusion-test-triton2

loadams/switch-modeling-compression

loadams/switch-python-versions

loadams/tar-vuln

loadams/test-0.15.0

loadams/test-amp-futurewarning

loadams/test-b421e8c8f31af254b63ad6e9839f617ab6d9c060

loadams/test-ccl-fixes

loadams/test-compile

loadams/test-cpu

loadams/test-cpu-inf-fix

loadams/test-f0e3f01d7c7a3d8748212e61eaf487fab41168a7

loadams/test-fix-nv-inference

loadams/test-glibc228

loadams/test-merged-changes

loadams/test-model-task

loadams/test-nv-ds-chat-failure-mode

loadams/test-nv-latest-cpu

loadams/test-nv-torch-latest-v100

loadams/test-pytest-ordering

loadams/test-runsc

loadams/test-torch-2.3.0

loadams/torch-cpu-mismatch-cudaopbuilder

loadams/torch-nightly-debug

loadams/transformers-fixes

loadams/transformers-torch

loadams/transformers-torch-update

loadams/transformers-workflow-dispatch

loadams/triton-22-update

loadams/try-bump-pydantic

loadams/unpin-hf-transformers-nv-workflows

loadams/unpin-nv-torch-latest

loadams/unpin-transformers

loadams/update-2004-checkout-actions

loadams/update-accelerate

loadams/update-amd-required-paths

loadams/update-checkout

loadams/update-conda-pydantic

loadams/update-container-a6000

loadams/update-docker

loadams/update-dockerfile

loadams/update-hostname-I

loadams/update-hpu-docker-container

loadams/update-hpu-docker-image

loadams/update-hpu-gaudi-flow-more

loadams/update-nodejs-reate-pr-action

loadams/update-nv-accelerate

loadams/update-nv-inference-torch-ver

loadams/update-nv-lightning-test-cu-ver

loadams/update-nv-torch-latest-cpu-torch-ver

loadams/update-nv-torch-latest-cpu-version

loadams/update-pre-compile-ops-docker

loadams/update-pydantic

loadams/update-pytest

loadams/update-pytest-error-codes

loadams/update-real-latest

loadams/update-sd-triton

loadams/update-torch-113

loadams/update-transformers

loadams/update-transformers-cu116

loadams/update-version-txt-post-release

loadams/update-website-sidebar

loadams/x86-accelerator

loadams/xpu-readme

loadams/xpu-test

loadams/xpu-yml

lokoppak/ln_schedule_update

lokoppak/low_cpu_mem_usage_ut

lokoppak/new_pt_binding

lokoppak/quantization_3d

lokoppak/ref_ln

lsh

master

master-test

megatron2.4-3d

minjiaz/ds-seq-tutorial

minjiaz/moe-comm

minjiaz/moe-sharing

moe-full-tp

moe-inference-tutorial

moe-inference-tutorial1

moe-inference/add-tutorial

moe-pipelining

moe-timing

mosm/autotp-he

mosm/autotp_llama

mosm/bloom_dev

mosm/codegen

mosm/debug-ds-attn

mosm/debugger

mosm/dschat-news

mosm/inf-refactor

mosm/llama2

mosm/matmul_test

mosm/module_parser

mosm/mp_tutorial

mosm/opt-kernel

mosm/softmax

mosm/softmax-longseq

mosm/t5

mosm/test

mosm/tp_dev

mosm/wb-param

mrwyattii/expand-fp16-tests

mrwyattii/fix-accelerate-tests

mrwyattii/fix-for-mii-UT

mrwyattii/fix-inference-skipped-tests

mrwyattii/fix-launcher-user-args

mrwyattii/fix-multi-node-checks

mrwyattii/pin-datasets

mrwyattii/pydantic-2-support

mrwyattii/remove-symlinks

mrwyattii/rename-cpu-accelerator

mrwyattii/safetensor

mrwyattii/silence-backend-warning

mrwyattii/update-GH-permission

mrwyattii/update-MII-tests-infV2

multi-z3-prs

multi-z3-prs-r2

mz/llama-support

neox-q-int8

niumanar/gan_optimizer

offloadpp-news

olruwase/accelerator_abstraction

olruwase/adam_types

olruwase/align_rrg_rs_param_order

olruwase/all_gather_profiling

olruwase/amd_configurable_pp_rtol

olruwase/assert_unused_parameters

olruwase/b16-debugging

olruwase/bf16-updates-2

olruwase/bf16_tied_weights_reduce

olruwase/bf16_update_hp_params

olruwase/bloom-support

olruwase/bloom_176b_checkpoint_bc

olruwase/build_compat_ops

olruwase/ci_pytorch_1x

olruwase/deepnvme_abstract_class

olruwase/deepnvme_docs

olruwase/disable_prefetch_profiler

olruwase/disable_z3_prefetcher

olruwase/dnvme_docs

olruwase/ds_2449

olruwase/ds_2921

olruwase/ds_3481

olruwase/ds_3680_2

olruwase/ds_3948

olruwase/dynamic_graph_activation_checkpoint

olruwase/elastic-ckpt-refresh

olruwase/engine_destroy

olruwase/fix_kernel_memory_bloat

olruwase/frozen_weights_unit_test

olruwase/fs-zero3_trace_fix

olruwase/fs_z3_trace_error_disable

olruwase/fs_z3_trace_log

olruwase/fuse_torch_adam_w

olruwase/gpt3-finetuning

olruwase/grad_accum_loss

olruwase/issue_3062

olruwase/llama2_empty_group

olruwase/local_storage_checkpoint

olruwase/lr_warmup_decay

olruwase/non_tensor_activation_checkpoint

olruwase/nvme_finetune

olruwase/nvme_offload_bug

olruwase/nvme_perf_sweep

olruwase/nvme_testsuite

olruwase/override_module_apply

olruwase/refactor_universal_checkpoint

olruwase/restore_from_bit16_weights

olruwase/round_robin_gradient_option

olruwase/safe_pkg_check

olruwase/safe_py_subprocess

olruwase/save_checkpoint_latest_false

olruwase/save_zero3_fp16_weights

olruwase/set_zero_opt_grad

olruwase/setup_env_libaio

olruwase/trainable_parameters

olruwase/windows_blog

olruwase/z3_perf_tune

olruwase/z3_suppress_warning

olruwase/zcode_model_expert

olruwase/zero1_non_tensor_checkpoint

olruwase/zero2_grad_accum_bug

olruwase/zero2_offload_keyerror

olruwase/zero2_offload_rrb_divergence

olruwase/zero2_offload_slowdown

olruwase/zero2_trainable_parameters

olruwase/zero2_trainable_parameters_v0.5.7

olruwase/zero2_unbalanced_grad_reduction

olruwase/zero3_amp_autocast

olruwase/zero3_broken_tracing

olruwase/zero3_dp_norm_allreduce

olruwase/zero3_profile_fetch

olruwase/zero3_unboundlocal_bug

olruwase/zero_inference_tokgen

olruwase/zero_inference_torch_version

olruwase/zero_multi_models

olruwase/zero_offload_e2e

olruwase/zero_offload_fix_corner_case

olruwase/zero_offload_v3

olruwase/zero_optional_reduce_scatter

olruwase/zero_stage1_checkpoint_layout

olruwase/zero_stage1_elastic_checkpoint

olruwase/zinf_none_swapper

paper

patch-z1-cont-grad

pr_moe_tutorial

preserve-CVDs

profiler-add-shape

qanthony/bigbird

qanthony/comms-bench

qanthony/nccl-backend

quantization-refresh

quantize-inference

refine-quantizer

remotes/origin/dev/tput

remove-tbx

remove-unused-quantize-settings

reyazda/adam-scalar-fix

reyazda/cpu_adam_jit_v2

reyazda/fix-inference-api

reyazda/pytorch-workspace-allocate

reyazda/remove_bertid

reyazda/support_AVX2_by_default

reyazda/test-hidden-dimension

reyazda/test-sparse

reyazda/test-sparse-v2

reyazda/test-transformer

reyazda/testing_embedding

reyazda/triton-new-sparse

reza/deepspeed_adam_merge_v3

reza/fix-adam-copyfp16

reza/fix_adam_corner_case

reza/fix_adam_perf

reza/megatron_kernel_integration

rtd-staging

saksham-zero1-fixes

samyam-overlap-comm

samyamr/elasticity

samyamr/fix-for-fragmented-linear-inputs

samyamr/gpt3-finetuning

samyamr/gpt3-finetuning-mixed-precision

samyamr/stage3-alignment-fix

samyamr/zero-2-debug

security-patch

shaden/textgen

smartreply_hotfix

sp/comm-opt

sparse-attn-cuda11

sparse-attn/support-latest-triton

staging-amd

staging-amd-port

staging-amd-v2

staging-amd-v3

staging-comms-next-v2

staging-comms-v1

staging-deepnvme-gds-v1

staging-demo-feature-v0

staging-ds-chat-blog-v1

staging-ds-seq-v1

staging-inference-v2-5

staging-mii-update

staging-moe-next-v1

staging-oaas

staging-pld-v1

staging-pp

staging-test

staging-zero-dual-v2

staging-zero-dual-v3

staging-zero-dual-v5

staging-zero-inference-v1

stale-issues

styoun/triton-flash2

styoun/triton2.1

styoun/triton2.1-autotune

styoun/zero-inf-8bit-q

subprocess-test

test-ac

test-cuda-11.7

tmp

tmp-old

tohtana/add_slides_meetup_japan

tohtana/allocate_test_port

tohtana/autocast_only_floating_values

tohtana/bcast_warning_z3

tohtana/blog_win_jp

tohtana/cache_kv_requirements

tohtana/clean_all_param_coordinators

tohtana/clean_up_prefetch_param

tohtana/compile-zero

tohtana/compile_no_grad

tohtana/consistent_zero_grad

tohtana/debug_compile_backends

tohtana/debug_semaphore_leak

tohtana/file_store_for_tests

tohtana/fix-save-checkpoint-step

tohtana/fix_bf16_opt_update_hp

tohtana/fix_chkpt_alignment

tohtana/fix_sort_dp_univ_ckpt

tohtana/fix_univ_chkpt_load

tohtana/fix_zero_init_patch

tohtana/get_offload_state_api

tohtana/ignore_reuse_dist_env

tohtana/lock_hf_cache_update

tohtana/log_run_tests

tohtana/model_declaration_in_init_context

tohtana/offload_zero_buffers

tohtana/pipeline_with_compiled_module

tohtana/remove_step_on_init

tohtana/test_with_pt25

tohtana/univ_ckpt_custom_shape

tohtana/z3_multi_dtypes

token-drop

transformer-injection

transformer-kernel/support-arbitrary-hidden

transformer/fix-layer-norm

transformer/injection

transformer/large-seq-support

transformer/triangular-mask

triton-fix

ucp_blog

umchand/test_compiler

umchand/triton/bias_act

unify-benchmark-knowledge

update-flops-profiler-doc

update-flops-profiler-pool-compute

workaround-zero3

z1-offload-multigpu

z3-mem-leak

zero-ckpt-cpu-issue-v2

zhenyzhang-data

zheweiyao/quantize_update

title: "DeepSpeed Sparse Attention" excerpt: "" date: 2020-09-09 01:00:00

tags: training inference English

Attention-based deep learning models such as the transformers are highly effective in capturing the relationship between tokens in an input sequence, even across long distances. As a result, they are used with text, image, and sound-based inputs, where the sequence length can be in thousands of tokens. However, despite the effectiveness of attention modules to capture long term dependencies, in practice, their application to long sequence input is limited by compute and memory requirements of the attention computation that grow quadratically, O(n^2), with the sequence length n.

To address this limitation, DeepSpeed offers a suite of sparse attention kernels --an instrumental technology that can reduce the compute and memory requirement of attention computation by orders-of-magnitude via block-sparse computation. The suite not only alleviates the memory bottleneck of attention calculation, but also performs sparse computation efficiently. Its APIs allow convenient integration with any transformer-based models. Along with providing a wide spectrum of sparsity structures, it has the flexibility of handling any user-defined block-sparse structures. More specifically, sparse attention (SA) can be designed to compute local attention between nearby tokens, or global attention via summary tokens computed with local attention. Moreover, SA can also allow random attention, or any combination of local, global, and random attention as shown in the following figure with blue, orange, and green blocks, respectively. As a result, SA decreases the memory footprint to O(wn), in which 1 < w < n is a parameter, whose value depends on the attention structure.

{: .align-center}

This library is PyTorch based and develops required kernels through Triton platform; kernels are not written in CUDA, which leaves the door open for CPU/OpenCL/Vulkan support in the future. The library is an extension to DeepSpeed and can be used through DeepSpeed as well as stand alone. Block-sparse computations handled by DeepSpeed Sparse Attention kernels are illustrated in following figures for forward and backward passes respectively. In the figures, S stands for a block-sparse matrix and D a dense matrix.

{: .align-center}

To learn more about Sparsity Config, and also how to use this library, please check our tutorial that provides detailed information about it.

Performance Results

Power over 10x longer sequences In a pre-training experiment, we ran BERT model under three settings: dense, dense with activation checkpoint, and sparse (SA) with activation checkpoint. SA empowers 10x and 16x longer sequences comparing with dense for BERT base and large, respectively. Following figure shows the longest sequence length runnable in BERT base and large model; experiment is performed with batch size 1 on a single NVIDIA V100 GPU-32GB memory.

{: .align-center}

Up to 6.3x faster computation We continued the pre-training experiment for different batch sizes and sequence lengths, using BERT base/large and Megatron GPT2. In this experiment we let the training to continue for 100 iteration and recorded the average time per last 30 iterations. SA reduces total computation comparing with dense and improves training speed: the boost is higher with increased sequence length and it is up to 6.3x faster for BERT base, 5.3x for BERT large, and 6.1x for GPT2. Following charts show these results.

{: .align-center}

Higher accuracy Related works along the line of sparse attention (Sparse Transformer, Longformer, BigBird) have shown comparable or higher accuracy than full attention. Our experience is well aligned. In addition to lower memory overhead and faster computation, we also observe cases in production where SA reaches higher accuracy and faster convergence. The following chart illustrates accuracy of training a production model based on BERT for long document comprehension (2,048 sequence length). The experiment is performed in three settings: dense starting from scratch, SA starting from scratch, and SA continued training from a checkpoint of using dense with sequence length of 512. We have observed that, for pre-training from scratch, SA converges faster with higher accuracy comparing with dense. Furthermore, SA continuing training from a pre-trained checkpoint performs even better, with respect to both time and accuracy.

{: .align-center}

Comparison with state of the art, Longformer We compared SA with Longformer, a state-of-the-art sparse structure and implementation. In our experiment, SA uses Fixed sparsity, and two implementations have comparable accuracy. On system performance, SA outperforms Longformer both in training and inference:
- 1.47x faster execution pre-training MLM on Wikitext103 We ran an experiment following the notebook offered by Longformer. In this experiment, we pre-train an MLM model using RoBERTa-base checkpoint. This is done on 8 V100-SXM2 GPU. Following table shows the details of the result in which using DeepSpeed Sparse Attention shows 1.47x speed up.

Model	Local Window Size	BPC	Train Step	Time Per Iteration	Time Improvement	Accuracy improvement
RoBERTa Checkpoint		2.5326
Longformer	512	2.6535	0		1.47	1.01
Sparse Attention		2.6321
Longformer		1.6708	3k	1.6280		1.01
Sparse Attention		1.6613		1.1059
Longformer	64	5.7840	0		1.31	1.46
Sparse Attention		3.9737
Longformer		2.0466	3k	1.4855		1.09
Sparse Attention		1.8693		1.1372

3.13x faster execution inference on BERT-Base Through our Long Document Comprehension application we described above, we also checked the inference time for different window sizes testing BERT model on a 2,048 Sequence Length and batch size 1. In this experiment, we noticed up to 3.13X speed up replacing Bert Attention with DeepSpeed Sparse Attention instead of Longformer Attention. Following table shows the complete result.

Local Window Size	Time Improvement
512	3.13
256	2.29
128	2.16
64	1.5
32	1.24
16	1.23

Flexibility to handle any block-sparse structure DeepSpeed Sparse Attention suite does not target at any specific sparse structure but enables model scientists to explore any block sparse structure with efficient system support. Currently, we have added popular sparse structure like:
- Fixed (from OpenAI Sparse Transformer)
- BigBird (from Google)
- BSLongformer (Block-Sparse implementation of Longformer from AI2)

We also define a template to have variable structure (top figure), which can be used to simply customize any block-sparse random/local/global attention pattern. In addition to this list, user can add any other sparsity structure as described in tutorial section.

2020-09-09-sparse-attention.md 9.2 KB 永久链接 文件历史 原始文件

tags: training inference English

Performance Results

2020-09-09-sparse-attention.md 9.2 KB

永久链接文件历史原始文件