blaspp/flops_8hh_source.html

// Copyright (c) 2017-2023, University of Tennessee. All rights reserved.

// SPDX-License-Identifier: BSD-3-Clause

// This program is free software: you can redistribute it and/or modify it under

// the terms of the BSD 3-Clause license. See the accompanying LICENSE file.


#ifndef BLAS_FLOPS_HH

#define BLAS_FLOPS_HH


#include "blas.hh"


namespace blas {


// =============================================================================

// Level 1 BLAS


// -----------------------------------------------------------------------------

inline double fmuls_asum( double n )

    { return 0; }


inline double fadds_asum( double n )

    { return n-1; }


// -----------------------------------------------------------------------------

inline double fmuls_axpy( double n )

    { return n; }


inline double fadds_axpy( double n )

    { return n; }


// -----------------------------------------------------------------------------

inline double fmuls_iamax( double n )

    { return 0; }


// n-1 compares, which are essentially adds (x > y is x - y > 0)

inline double fadds_iamax( double n )

    { return n-1; }


// -----------------------------------------------------------------------------

inline double fmuls_nrm2( double n )

    { return n; }


inline double fadds_nrm2( double n )

    { return n-1; }


// -----------------------------------------------------------------------------

inline double fmuls_dot( double n )

    { return n; }


inline double fadds_dot( double n )

    { return n-1; }


// -----------------------------------------------------------------------------

inline double fmuls_scal( double n )

    { return n; }


inline double fadds_scal( double n )

    { return 0; }


// -----------------------------------------------------------------------------

inline double fmuls_rot( double n )

    { return 4 * n; }


inline double fadds_rot( double n )

    { return 2 * n; }


// -----------------------------------------------------------------------------

inline double fmuls_rotm( double n )

    { return 2 * n; }


inline double fadds_rotm( double n )

    { return 2 * n; }


// =============================================================================

// Level 2 BLAS

// most formulas assume alpha=1, beta=0 or 1; otherwise add lower-order terms.

// i.e., this is minimum flops and bandwidth that could be consumed.


// -----------------------------------------------------------------------------

inline double fmuls_gemv( double m, double n )

    { return m*n; }


inline double fadds_gemv( double m, double n )

    { return m*n; }


// -----------------------------------------------------------------------------

inline double fmuls_trmv( double n )

    { return 0.5*n*(n + 1); }


inline double fadds_trmv( double n )

    { return 0.5*n*(n - 1); }


// -----------------------------------------------------------------------------

inline double fmuls_ger( double m, double n )

    { return m*n; }


inline double fadds_ger( double m, double n )

    { return m*n; }


// -----------------------------------------------------------------------------

inline double fmuls_gemm( double m, double n, double k )

    { return m*n*k; }


inline double fadds_gemm( double m, double n, double k )

    { return m*n*k; }


// -----------------------------------------------------------------------------

// Assume gbmm is band matrix A (m-by-k) and general matrix B (k-by-n).

// Usually, the bottom equation (m-kl <= k and k-ku <= m) calculates the flops,

// but some matrices are too tall or too wide and require extra care.

// This bottom equation fails because a triangle it subtracts extends beyond

// the matrix, so it should subtract a trapezoid instead.

// For the first corner (m-kl > k) case,

// think rectangle minus trapezoid minus triangle and reduce:

//        (m*k - (m-kl+m-k-kl-1)/2*k - (k-ku-1)*(k-ku)/2)*n;

//        (m*k - (m-kl)*k+(k-1)*k/2 - (k-ku-1)*(k-ku)/2)*n;

//        (kl*k + (k+1)*k/2 - (k-ku-1)*(k-ku)/2)*n;

// We are conveniently left with the geometric interpretation of

// rectangle plus triangle minus triangle.

inline double fmuls_gbmm( double m, double n, double k, double kl, double ku )

{

    if (m-kl > k)

        return (kl*k + (k+1)*k/2. - (k-ku-1)*(k-ku)/2.)*n;

    if (k-ku > m)

        return (ku*m - (m-kl-1)*(m-kl)/2. + (m+1)*m/2.)*n;

    return (m*k - (m-kl-1)*(m-kl)/2. - (k-ku-1)*(k-ku)/2.)*n;

}


// Assuming alpha=1, beta=1, adds are same as muls.

inline double fadds_gbmm( double m, double n, double k, double kl, double ku )

{

    return fmuls_gbmm( m, n, k, kl, ku );

}


// -----------------------------------------------------------------------------

inline double fmuls_hemm( blas::Side side, double m, double n )

    { return (side == blas::Side::Left ? m*m*n : m*n*n); }


inline double fadds_hemm( blas::Side side, double m, double n )

    { return (side == blas::Side::Left ? m*m*n : m*n*n); }


// -----------------------------------------------------------------------------

inline double fmuls_herk( double n, double k )

    { return 0.5*k*n*(n+1); }


inline double fadds_herk( double n, double k )

    { return 0.5*k*n*(n+1); }


// -----------------------------------------------------------------------------

inline double fmuls_her2k( double n, double k )

    { return k*n*n; }


inline double fadds_her2k( double n, double k )

    { return k*n*n; }


// -----------------------------------------------------------------------------

inline double fmuls_trmm( blas::Side side, double m, double n )

{

    if (side == blas::Side::Left)

        return 0.5*n*m*(m + 1);

    else

        return 0.5*m*n*(n + 1);

}


inline double fadds_trmm( blas::Side side, double m, double n )

{

    if (side == blas::Side::Left)

        return 0.5*n*m*(m - 1);

    else

        return 0.5*m*n*(n - 1);

}


//==============================================================================

// template class. Example:

// gflop< float >::gemm( m, n, k ) yields flops for sgemm.

// gflop< std::complex<float> >::gemm( m, n, k ) yields flops for cgemm.

//==============================================================================

template <typename T>

class Gbyte

{

public:

    // ----------------------------------------

    // Level 1 BLAS

    // read x

    static double asum( double n )

        { return 1e-9 * (n * sizeof(T)); }


    // read x, y; write y

    static double axpy( double n )

        { return 1e-9 * (3*n * sizeof(T)); }


    // read x; write y

    static double copy( double n )

        { return 1e-9 * (2*n * sizeof(T)); }


    // read x

    static double iamax( double n )

        { return 1e-9 * (n * sizeof(T)); }


    // read x

    static double nrm2( double n )

        { return 1e-9 * (n * sizeof(T)); }


    // read x, y

    static double dot( double n )

        { return 1e-9 * (2*n * sizeof(T)); }


    // read x; write x

    static double scal( double n )

        { return 1e-9 * (2*n * sizeof(T)); }


    // read x, y; write x, y

    static double swap( double n )

        { return 1e-9 * (4*n * sizeof(T)); }


    // ----------------------------------------

    // Level 2 BLAS

    // read A, x; write y

    static double gemv( double m, double n )

        { return 1e-9 * ((m*n + m + n) * sizeof(T)); }


    // read A triangle, x; write y

    static double hemv( double n )

        { return 1e-9 * ((0.5*(n+1)*n + 2*n) * sizeof(T)); }


    static double symv( double n )

        { return hemv( n ); }


    // read A triangle, x; write x

    static double trmv( double n )

        { return 1e-9 * ((0.5*(n+1)*n + 2*n) * sizeof(T)); }


    static double trsv( double n )

        { return trmv( n ); }


    // read A, x, y; write A

    static double ger( double m, double n )

        { return 1e-9 * ((2*m*n + m + n) * sizeof(T)); }


    // read A triangle, x; write A triangle

    static double her( double n )

        { return 1e-9 * (((n+1)*n + n) * sizeof(T)); }


    static double syr( double n )

        { return her( n ); }


    // read A triangle, x, y; write A triangle

    static double her2( double n )

        { return 1e-9 * (((n+1)*n + n + n) * sizeof(T)); }


    static double syr2( double n )

        { return her2( n ); }


    // read A; write B

    static double copy_2d( double m, double n )

        { return 1e-9 * (2*m*n * sizeof(T)); }


    // ----------------------------------------

    // Level 3 BLAS

    // read A, B, C; write C

    static double gemm( double m, double n, double k )

        { return 1e-9 * ((m*k + k*n + 2*m*n) * sizeof(T)); }


    static double hemm( blas::Side side, double m, double n )

    {

        // read A, B, C; write C

        double sizeA = (side == blas::Side::Left ? 0.5*m*(m+1) : 0.5*n*(n+1));

        return 1e-9 * ((sizeA + 3*m*n) * sizeof(T));

    }


    static double symm( blas::Side side, double m, double n )

        { return hemm( side, m, n ); }


    static double herk( double n, double k )

    {

        // read A, C; write C

        double sizeC = 0.5*n*(n+1);

        return 1e-9 * ((n*k + 2*sizeC) * sizeof(T));

    }


    static double syrk( double n, double k )

        { return herk( n, k ); }


    static double her2k( double n, double k )

    {

        // read A, B, C; write C

        double sizeC = 0.5*n*(n+1);

        return 1e-9 * ((2*n*k + 2*sizeC) * sizeof(T));

    }


    static double syr2k( double n, double k )

        { return her2k( n, k ); }


    static double trmm( blas::Side side, double m, double n )

    {

        // read A triangle, x; write x

        if (side == blas::Side::Left)

            return 1e-9 * ((0.5*(m+1)*m + 2*m*n) * sizeof(T));

        else

            return 1e-9 * ((0.5*(n+1)*n + 2*m*n) * sizeof(T));

    }


    static double trsm( blas::Side side, double m, double n )

        { return trmm( side, m, n ); }

};


//==============================================================================

// Traits to lookup number of operations per multiply and add.

template <typename T>

class FlopTraits

{

public:

    static constexpr double mul_ops = 1;

    static constexpr double add_ops = 1;

};


//------------------------------------------------------------------------------

// specialization for complex

// flops = 6*muls + 2*adds

template <typename T>

class FlopTraits< std::complex<T> >

{

public:

    static constexpr double mul_ops = 6;

    static constexpr double add_ops = 2;

};


//==============================================================================

// template class. Example:

// gflop< float >::gemm( m, n, k ) yields flops for sgemm.

// gflop< std::complex<float> >::gemm( m, n, k ) yields flops for cgemm.

//==============================================================================

template <typename T>

class Gflop

{

public:

    static constexpr double mul_ops = FlopTraits<T>::mul_ops;

    static constexpr double add_ops = FlopTraits<T>::add_ops;


    // ----------------------------------------

    // Level 1 BLAS

    static double asum( double n )

        { return 1e-9 * (mul_ops*fmuls_asum(n) +

                         add_ops*fadds_asum(n)); }


    static double axpy( double n )

        { return 1e-9 * (mul_ops*fmuls_axpy(n) +

                         add_ops*fadds_axpy(n)); }


    static double copy( double n )

        { return 0; }


    static double iamax( double n )

        { return 1e-9 * (mul_ops*fmuls_iamax(n) +

                         add_ops*fadds_iamax(n)); }


    static double nrm2( double n )

        { return 1e-9 * (mul_ops*fmuls_nrm2(n) +

                         add_ops*fadds_nrm2(n)); }


    static double dot( double n )

        { return 1e-9 * (mul_ops*fmuls_dot(n) +

                         add_ops*fadds_dot(n)); }


    static double scal( double n )

        { return 1e-9 * (mul_ops*fmuls_scal(n) +

                         add_ops*fadds_scal(n)); }


    static double swap( double n )

        { return 0; }


    static double rot( double n )

        { return 1e-9 * (mul_ops*fmuls_rot(n) +

                         add_ops*fadds_rot(n)); }


    static double rotm( double n )

        { return 1e-9 * (mul_ops*fmuls_rotm(n) +

                         add_ops*fadds_rotm(n)); }


    // ----------------------------------------

    // Level 2 BLAS

    static double gemv(double m, double n)

        { return 1e-9 * (mul_ops*fmuls_gemv(m, n) +

                         add_ops*fadds_gemv(m, n)); }


    static double symv(double n)

        { return gemv( n, n ); }


    static double hemv(double n)

        { return symv( n ); }


    static double trmv( double n )

        { return 1e-9 * (mul_ops*fmuls_trmv(n) +

                         add_ops*fadds_trmv(n)); }


    static double trsv( double n )

        { return trmv( n ); }


    static double her( double n )

        { return ger( n, n ); }


    static double syr( double n )

        { return her( n ); }


    static double ger( double m, double n )

        { return 1e-9 * (mul_ops*fmuls_ger(m, n) +

                         add_ops*fadds_ger(m, n)); }


    static double her2( double n )

        { return 2*ger( n, n ); }


    static double syr2( double n )

        { return her2( n ); }


    // ----------------------------------------

    // Level 3 BLAS

    static double gemm(double m, double n, double k)

        { return 1e-9 * (mul_ops*fmuls_gemm(m, n, k) +

                         add_ops*fadds_gemm(m, n, k)); }


    static double gbmm(double m, double n, double k, double kl, double ku)

        { return 1e-9 * (mul_ops*fmuls_gbmm(m, n, k, kl, ku) +

                         add_ops*fadds_gbmm(m, n, k, kl, ku)); }


    static double hemm(blas::Side side, double m, double n)

        { return 1e-9 * (mul_ops*fmuls_hemm(side, m, n) +

                         add_ops*fadds_hemm(side, m, n)); }


    static double hbmm(double m, double n, double kd)

        { return gbmm(m, n, m, kd, kd); }


    static double symm(blas::Side side, double m, double n)

        { return hemm( side, m, n ); }


    static double herk(double n, double k)

        { return 1e-9 * (mul_ops*fmuls_herk(n, k) +

                         add_ops*fadds_herk(n, k)); }


    static double syrk(double n, double k)

        { return herk( n, k ); }


    static double her2k(double n, double k)

        { return 1e-9 * (mul_ops*fmuls_her2k(n, k) +

                         add_ops*fadds_her2k(n, k)); }


    static double syr2k(double n, double k)

        { return her2k( n, k ); }


    static double trmm(blas::Side side, double m, double n)

        { return 1e-9 * (mul_ops*fmuls_trmm(side, m, n) +

                         add_ops*fadds_trmm(side, m, n)); }


    static double trsm(blas::Side side, double m, double n)

        { return trmm( side, m, n ); }


};


}  // namespace blas


#endif        //  #ifndef BLAS_FLOPS_HH

blas::asum
real_type< T > asum(int64_t n, T const *x, int64_t incx)
Definition asum.hh:35

blas::axpy
void axpy(int64_t n, blas::scalar_type< TX, TY > alpha, TX const *x, int64_t incx, TY *y, int64_t incy)
Add scaled vector, .
Definition axpy.hh:43

blas::copy
void copy(int64_t n, TX const *x, int64_t incx, TY *y, int64_t incy)
Copy vector, .
Definition copy.hh:40

blas::dot
void dot(int64_t n, float const *x, int64_t incx, float const *y, int64_t incy, float *result, blas::Queue &queue)
GPU device, float version.
Definition device_dot.cc:139

blas::gemm
void gemm(blas::Layout layout, blas::Op transA, blas::Op transB, int64_t m, int64_t n, int64_t k, float alpha, float const *A, int64_t lda, float const *B, int64_t ldb, float beta, float *C, int64_t ldc, blas::Queue &queue)
GPU device, float version.
Definition device_gemm.cc:119

blas::gemv
void gemv(blas::Layout layout, blas::Op trans, int64_t m, int64_t n, blas::scalar_type< TA, TX, TY > alpha, TA const *A, int64_t lda, TX const *x, int64_t incx, blas::scalar_type< TA, TX, TY > beta, TY *y, int64_t incy)
General matrix-vector multiply:
Definition gemv.hh:79

blas::ger
void ger(blas::Layout layout, int64_t m, int64_t n, blas::scalar_type< TA, TX, TY > alpha, TX const *x, int64_t incx, TY const *y, int64_t incy, TA *A, int64_t lda)
General matrix rank-1 update:
Definition ger.hh:60

blas::hemm
void hemm(blas::Layout layout, blas::Side side, blas::Uplo uplo, int64_t m, int64_t n, float alpha, float const *A, int64_t lda, float const *B, int64_t ldb, float beta, float *C, int64_t ldc, blas::Queue &queue)
GPU device, float version.
Definition device_hemm.cc:107

blas::hemv
void hemv(blas::Layout layout, blas::Uplo uplo, int64_t n, blas::scalar_type< TA, TX, TY > alpha, TA const *A, int64_t lda, TX const *x, int64_t incx, blas::scalar_type< TA, TX, TY > beta, TY *y, int64_t incy)
Hermitian matrix-vector multiply:
Definition hemv.hh:69

blas::her2
void her2(blas::Layout layout, blas::Uplo uplo, int64_t n, blas::scalar_type< TA, TX, TY > alpha, TX const *x, int64_t incx, TY const *y, int64_t incy, TA *A, int64_t lda)
Hermitian matrix rank-2 update:
Definition her2.hh:66

blas::her2k
void her2k(blas::Layout layout, blas::Uplo uplo, blas::Op trans, int64_t n, int64_t k, float alpha, float const *A, int64_t lda, float const *B, int64_t ldb, float beta, float *C, int64_t ldc, blas::Queue &queue)
GPU device, float version.
Definition device_her2k.cc:100

blas::her
void her(blas::Layout layout, blas::Uplo uplo, int64_t n, blas::real_type< TA, TX > alpha, TX const *x, int64_t incx, TA *A, int64_t lda)
Hermitian matrix rank-1 update:
Definition her.hh:59

blas::herk
void herk(blas::Layout layout, blas::Uplo uplo, blas::Op trans, int64_t n, int64_t k, float alpha, float const *A, int64_t lda, float beta, float *C, int64_t ldc, blas::Queue &queue)
GPU device, float version.
Definition device_herk.cc:92

blas::iamax
int64_t iamax(int64_t n, T const *x, int64_t incx)
Definition iamax.hh:34

blas::nrm2
void nrm2(int64_t n, float const *x, int64_t incx, float *result, blas::Queue &queue)
GPU device, float version.
Definition device_nrm2.cc:84

blas::rot
void rot(int64_t n, TX *x, int64_t incx, TY *y, int64_t incy, blas::real_type< TX, TY > c, blas::scalar_type< TX, TY > s)
Apply plane rotation:
Definition rot.hh:53

blas::rotm
void rotm(int64_t n, TX *x, int64_t incx, TY *y, int64_t incy, blas::scalar_type< TX, TY > const param[5])
Apply modified (fast) plane rotation, H:
Definition rotm.hh:50

blas::scal
void scal(int64_t n, float alpha, float *x, int64_t incx, blas::Queue &queue)
GPU device, float version.
Definition device_scal.cc:65

blas::swap
void swap(int64_t n, float *x, int64_t incx, float *y, int64_t incy, blas::Queue &queue)
GPU device, float version.
Definition device_swap.cc:67

blas::symm
void symm(blas::Layout layout, blas::Side side, blas::Uplo uplo, int64_t m, int64_t n, float alpha, float const *A, int64_t lda, float const *B, int64_t ldb, float beta, float *C, int64_t ldc, blas::Queue &queue)
GPU device, float version.
Definition device_symm.cc:106

blas::symv
void symv(blas::Layout layout, blas::Uplo uplo, int64_t n, blas::scalar_type< TA, TX, TY > alpha, TA const *A, int64_t lda, TX const *x, int64_t incx, blas::scalar_type< TA, TX, TY > beta, TY *y, int64_t incy)
Symmetric matrix-vector multiply:
Definition symv.hh:66

blas::syr2
void syr2(blas::Layout layout, blas::Uplo uplo, int64_t n, blas::scalar_type< TA, TX, TY > alpha, TX const *x, int64_t incx, TY const *y, int64_t incy, TA *A, int64_t lda)
Symmetric matrix rank-2 update:
Definition syr2.hh:63

blas::syr2k
void syr2k(blas::Layout layout, blas::Uplo uplo, blas::Op trans, int64_t n, int64_t k, float alpha, float const *A, int64_t lda, float const *B, int64_t ldb, float beta, float *C, int64_t ldc, blas::Queue &queue)
GPU device, float version.
Definition device_syr2k.cc:107

blas::syr
void syr(blas::Layout layout, blas::Uplo uplo, int64_t n, blas::scalar_type< TA, TX > alpha, TX const *x, int64_t incx, TA *A, int64_t lda)
Symmetric matrix rank-1 update:
Definition syr.hh:56

blas::syrk
void syrk(blas::Layout layout, blas::Uplo uplo, blas::Op trans, int64_t n, int64_t k, float alpha, float const *A, int64_t lda, float beta, float *C, int64_t ldc, blas::Queue &queue)
GPU device, float version.
Definition device_syrk.cc:101

blas::trmm
void trmm(blas::Layout layout, blas::Side side, blas::Uplo uplo, blas::Op trans, blas::Diag diag, int64_t m, int64_t n, float alpha, float const *A, int64_t lda, float *B, int64_t ldb, blas::Queue &queue)
GPU device, float version.
Definition device_trmm.cc:104

blas::trmv
void trmv(blas::Layout layout, blas::Uplo uplo, blas::Op trans, blas::Diag diag, int64_t n, TA const *A, int64_t lda, TX *x, int64_t incx)
Triangular matrix-vector multiply:
Definition trmv.hh:69

blas::trsm
void trsm(blas::Layout layout, blas::Side side, blas::Uplo uplo, blas::Op trans, blas::Diag diag, int64_t m, int64_t n, float alpha, float const *A, int64_t lda, float *B, int64_t ldb, blas::Queue &queue)
GPU device, float version.
Definition device_trsm.cc:104

blas::trsv
void trsv(blas::Layout layout, blas::Uplo uplo, blas::Op trans, blas::Diag diag, int64_t n, TA const *A, int64_t lda, TX *x, int64_t incx)
Solve the triangular matrix-vector equation.
Definition trsv.hh:73