#pragma once #include <cooperative_groups.h> #include <cuda.h> #include <cuda_fp16.h> #include <stdio.h> #include <stdlib.h> #include <cassert> #include <iostream>