
특정 코드 경로에 대한 성능 데이터를 얻으려면 어떤 방법을 사용합니까?

이 방법에는 몇 가지 제한 사항이 있지만 여전히 매우 유용하다고 생각합니다.나는 (내가 알고 있는) 제한 사항을 미리 나열하고 그것을 사용하려는 사람이 자신의 책임하에 사용하도록 할 것입니다.

  1. 내가 게시한 원래 버전에서는 재귀 호출에 소요된 시간이 과도하게 보고되었습니다(답변에 대한 설명에서 지적했듯이).
  2. 스레드로부터 안전하지 않습니다. 재귀를 무시하는 코드를 추가하기 전에는 스레드로부터 안전하지 않았으며 지금은 스레드로부터 훨씬 덜 안전합니다.
  3. 여러 번(수백만) 호출하면 매우 효율적이지만 측정하는 범위가 그렇지 않은 범위보다 오래 걸리도록 결과에 측정 가능한 영향을 미칩니다.

당면한 문제로 인해 모든 코드를 프로파일링하는 것이 타당하지 않거나 프로파일러에서 확인하려는 일부 데이터를 얻을 때 이 클래스를 사용합니다.기본적으로 특정 블록에서 보낸 시간을 합산하고 프로그램이 끝나면 이를 디버그 스트림으로 출력합니다(다음으로 볼 수 있음). DbgView), 코드가 실행된 횟수(및 평균 소요 시간)도 포함됩니다.

#pragma once
#include <tchar.h>
#include <windows.h>
#include <sstream>
#include <boost/noncopyable.hpp>

namespace scope_timer {
    class time_collector : boost::noncopyable {
        __int64 total;
        LARGE_INTEGER start;
        size_t times;
        const TCHAR* name;

        double cpu_frequency()
        { // cache the CPU frequency, which doesn't change.
            static double ret = 0; // store as double so devision later on is floating point and not truncating
            if (ret == 0) {
                LARGE_INTEGER freq;
                ret = static_cast<double>(freq.QuadPart);
            return ret;
        bool in_use;

        time_collector(const TCHAR* n)
            : times(0)
            , name(n)
            , total(0)
            , start(LARGE_INTEGER())
            , in_use(false)

            std::basic_ostringstream<TCHAR> msg;
            msg << _T("scope_timer> ") <<  name << _T(" called: ");

            double seconds = total / cpu_frequency();
            double average = seconds / times;

            msg << times << _T(" times total time: ") << seconds << _T(" seconds  ")
                << _T(" (avg ") << average <<_T(")\n");

        void add_time(__int64 ticks)
            total += ticks;
            in_use = false;

        bool aquire()
            if (in_use)
                return false;
            in_use = true;
            return true;

    class one_time : boost::noncopyable {
        LARGE_INTEGER start;
        time_collector* collector;
        one_time(time_collector& tc)
            if (tc.aquire()) {
                collector = &tc;
                collector = 0;

            if (collector) {
                LARGE_INTEGER end;
                collector->add_time(end.QuadPart - start.QuadPart);

// Usage TIME_THIS_SCOPE(XX); where XX is a C variable name (can begin with a number)
#define TIME_THIS_SCOPE(name) \
    static scope_timer::time_collector st_time_collector_##name(_T(#name)); \
    scope_timer::one_time st_one_time_##name(st_time_collector_##name)

다른 팁

나는 두 개의 클래스를 생성하여 프로필을 작성합니다. cProfile 그리고 cProfileManager.

cProfileManager 결과로 발생한 모든 데이터를 보유합니다. cProfile.

cProfile 다음과 같은 요구 사항이 있습니다.

  • cProfile 현재 시간을 초기화하는 생성자가 있습니다.
  • cProfile 클래스가 살아 있었던 총 시간을 보내는 해체자가 있습니다. cProfileManager

이러한 프로필 클래스를 사용하기 위해 먼저 다음 인스턴스를 만듭니다. cProfileManager.그런 다음 프로파일링하려는 코드 블록을 중괄호 안에 넣습니다.중괄호 안에 다음을 만듭니다. cProfile 사례.코드 블록이 끝나면, cProfile 코드 블록이 완료되는 데 걸린 시간을 cProfileManager.

예제 코드다음은 코드의 예입니다(단순화).

class cProfile
        TimeStart = GetTime();

        ProfileManager->AddProfile (GetTime() - TimeStart);

    float TimeStart;

사용 cProfile, 나는 다음과 같이 할 것입니다 :

int main()
    printf("Start test");
        cProfile Profile;

아니면 이거:

void foobar()
    cProfile ProfileFoobar;

        cProfile ProfileBarCheck;
        while (bar())
            cProfile ProfileSpam;

기술 노트

이 코드는 실제로 범위 지정, 생성자 및 해체자가 작동하는 방식을 남용한 것입니다. C++. cProfile 블록 범위(테스트하려는 코드 블록) 내부에만 존재합니다.프로그램이 블록 범위를 벗어나면, cProfile 결과를 기록합니다.

추가 개선 사항

  • 생성자에 문자열 매개변수를 추가하면 다음과 같은 작업을 수행할 수 있습니다.cProfile Profile("복잡한 계산을 위한 프로파일");

  • 매크로를 사용하면 코드를 더욱 깔끔하게 보이게 만들 수 있습니다(이를 남용하지 않도록 주의하세요.언어에 대한 다른 남용과 달리 매크로는 사용 시 위험할 수 있습니다.


    #define START_PROFILE cProfile 프로필();{#define end_profile}

  • cProfileManager 코드 블록이 몇 번 호출되었는지 확인할 수 있습니다.그러나 코드 블록에 대한 식별자가 필요합니다.첫 번째 개선 사항은 블록을 식별하는 데 도움이 될 수 있습니다.이는 프로파일링하려는 코드가 루프 내부에 있는 경우(두 번째 예제 aboe와 같이) 유용할 수 있습니다.코드 블록에 소요된 평균, 가장 빠른 실행 시간, 가장 긴 실행 시간을 추가할 수도 있습니다.

  • 디버그 모드에 있는 경우 프로파일링을 건너뛰려면 검사를 추가하는 것을 잊지 마세요.

다음은 모두 Windows용으로 특별히 작성된 것입니다.

또한 QueryPerformanceCounter()를 사용하여 고정밀 타이밍을 얻는 빠르고 간단한 프로파일링을 수행하기 위해 작성한 타이머 클래스도 있지만 약간의 차이가 있습니다.내 타이머 클래스는 Timer 개체가 범위를 벗어날 때 경과 시간을 덤프하지 않습니다.대신 경과 시간을 컬렉션에 누적합니다.평균 경과 시간, 표준 편차, 최대 및 최소와 같은 일부 통계 분석과 함께 타이밍 범주(Timer의 생성자에서 문자열로 지정됨)별로 정렬된 경과 시간 테이블을 생성하는 정적 멤버 함수인 Dump()를 추가했습니다.또한 컬렉션을 지우고 다시 시작할 수 있게 해주는 Clear() 정적 멤버 함수도 추가했습니다.

Timer 클래스(의사코드)를 사용하는 방법:

int CInsertBuffer::Read(char* pBuf)
       // TIMER NOTES: Avg Execution Time = ~1 ms
       Timer timer("BufferRead");
       :      :
       return -1;

샘플 출력:

Timer Precision = 418.0095 ps

=== Item               Trials    Ttl Time  Avg Time  Mean Time StdDev    ===
    AddTrade           500       7 ms      14 us     12 us     24 us
    BufferRead         511       1:19.25   0.16 s    621 ns    2.48 s
    BufferWrite        516       511 us    991 ns    482 ns    11 us
    ImportPos Loop     1002      18.62 s   19 ms     77 us     0.51 s
    ImportPosition     2         18.75 s   9.38 s    16.17 s   13.59 s
    Insert             515       4.26 s    8 ms      5 ms      27 ms
    recv               101       18.54 s   0.18 s    2603 ns   1.63 s

파일 Timer.inl :

#include <map>
#include "x:\utils\stlext\stringext.h"
#include <iterator>
#include <set>
#include <vector>
#include <numeric>
#include "x:\utils\stlext\algorithmext.h"
#include <math.h>

    class Timer
        Timer(const char* name)
            label = std::safe_string(name);

        virtual ~Timer()
            __int64 clocks = stopTime.QuadPart-startTime.QuadPart;
            double elapsed = (double)clocks/(double)TimerFreq();

        static std::string Dump(bool ClipboardAlso=true)
            static const std::string loc = "Timer::Dump";

            if( TimeMap().empty() )
                return "No trials\r\n";

            std::string ret = std::formatstr("\r\n\r\nTimer Precision = %s\r\n\r\n", format_elapsed(1.0/(double)TimerFreq()).c_str());

            // get a list of keys
            typedef std::set<std::string> keyset;
            keyset keys;
            std::transform(TimeMap().begin(), TimeMap().end(), std::inserter(keys, keys.begin()), extract_key());

            size_t maxrows = 0;

            typedef std::vector<std::string> strings;
            strings lines;

            static const size_t tabWidth = 9;

            std::string head = std::formatstr("=== %-*.*s %-*.*s %-*.*s %-*.*s %-*.*s %-*.*s ===", tabWidth*2, tabWidth*2, "Item", tabWidth, tabWidth, "Trials", tabWidth, tabWidth, "Ttl Time", tabWidth, tabWidth, "Avg Time", tabWidth, tabWidth, "Mean Time", tabWidth, tabWidth, "StdDev");
            ret += std::formatstr("\r\n%s\r\n", head.c_str());
            if( ClipboardAlso ) 
                lines.push_back("Item\tTrials\tTtl Time\tAvg Time\tMean Time\tStdDev\r\n");
            // dump the values for each key
            {for( keyset::iterator key = keys.begin(); keys.end() != key; ++key )
                time_type ttl = 0;
                ttl = std::accumulate(TimeMap().begin(), TimeMap().end(), ttl, accum_key(*key));
                size_t num = std::count_if( TimeMap().begin(), TimeMap().end(), match_key(*key));
                if( num > maxrows ) 
                    maxrows = num;
                time_type avg = ttl / num;

                // compute mean
                std::vector<time_type> sortedTimes;
                std::transform_if(TimeMap().begin(), TimeMap().end(), std::inserter(sortedTimes, sortedTimes.begin()), extract_val(), match_key(*key));
                std::sort(sortedTimes.begin(), sortedTimes.end());
                size_t mid = (size_t)floor((double)num/2.0);
                double mean = ( num > 1 && (num % 2) != 0 ) ? (sortedTimes[mid]+sortedTimes[mid+1])/2.0 : sortedTimes[mid];
                // compute variance
                double sum = 0.0;
                if( num > 1 )
                    for( std::vector<time_type>::iterator timeIt = sortedTimes.begin(); sortedTimes.end() != timeIt; ++timeIt )
                        sum += pow(*timeIt-mean,2.0);
                // compute std dev
                double stddev = num > 1 ? sqrt(sum/((double)num-1.0)) : 0.0;

                ret += std::formatstr("    %-*.*s %-*.*s %-*.*s %-*.*s %-*.*s %-*.*s\r\n", tabWidth*2, tabWidth*2, key->c_str(), tabWidth, tabWidth, std::formatstr("%d",num).c_str(), tabWidth, tabWidth, format_elapsed(ttl).c_str(), tabWidth, tabWidth, format_elapsed(avg).c_str(), tabWidth, tabWidth, format_elapsed(mean).c_str(), tabWidth, tabWidth, format_elapsed(stddev).c_str()); 
                if( ClipboardAlso )
                    lines.push_back(std::formatstr("%s\t%s\t%s\t%s\t%s\t%s\r\n", key->c_str(), std::formatstr("%d",num).c_str(), format_elapsed(ttl).c_str(), format_elapsed(avg).c_str(), format_elapsed(mean).c_str(), format_elapsed(stddev).c_str())); 

            ret += std::formatstr("%s\r\n", std::string(head.length(),'=').c_str());

            if( ClipboardAlso )
                // dump header row of data block
                    std::string s;
                    for( keyset::iterator key = keys.begin(); key != keys.end(); ++key )
                        if( key != keys.begin() )

                // blow out the flat map of time values to a seperate vector of times for each key
                typedef std::map<std::string, std::vector<time_type> > nodematrix;
                nodematrix nodes;
                for( Times::iterator time = TimeMap().begin(); time != TimeMap().end(); ++time )

                // dump each data point
                for( size_t row = 0; row < maxrows; ++row )
                    std::string rowDump;
                    for( keyset::iterator key = keys.begin(); key != keys.end(); ++key )
                        if( key != keys.begin() )
                        if( nodes[*key].size() > row )
                            rowDump.append(std::formatstr("%f", nodes[*key][row]));

                // dump to the clipboard
                std::string dump;
                for( strings::iterator s = lines.begin(); s != lines.end(); ++s )

                HGLOBAL hg = GlobalAlloc(GMEM_MOVEABLE, dump.length()+1);
                if( hg != 0 )
                    char* buf = (char*)GlobalLock(hg);
                    if( buf != 0 )
                        std::copy(dump.begin(), dump.end(), buf);
                        buf[dump.length()] = 0;
                        SetClipboardData(CF_TEXT, hg);

            return ret;

        static void Reset()

        static std::string format_elapsed(double d) 
            if( d < 0.00000001 )
                // show in ps with 4 digits
                return std::formatstr("%0.4f ps", d * 1000000000000.0);
            if( d < 0.00001 )
                // show in ns
                return std::formatstr("%0.0f ns", d * 1000000000.0);
            if( d < 0.001 )
                // show in us
                return std::formatstr("%0.0f us", d * 1000000.0);
            if( d < 0.1 )
                // show in ms
                return std::formatstr("%0.0f ms", d * 1000.0);
            if( d <= 60.0 )
                // show in seconds
                return std::formatstr("%0.2f s", d);
            if( d < 3600.0 )
                // show in min:sec
                return std::formatstr("%01.0f:%02.2f", floor(d/60.0), fmod(d,60.0));
            // show in h:min:sec
            return std::formatstr("%01.0f:%02.0f:%02.2f", floor(d/3600.0), floor(fmod(d,3600.0)/60.0), fmod(d,60.0));

        static __int64 TimerFreq()
            static __int64 freq = 0;
            static bool init = false;
            if( !init )
                LARGE_INTEGER li;
                freq = li.QuadPart;
                init = true;
            return freq;
        LARGE_INTEGER startTime, stopTime;
        std::string label;

        typedef std::string key_type;
        typedef double time_type;
        typedef std::multimap<key_type, time_type> Times;
//      static Times times;
        static Times& TimeMap()
            static Times times_;
            return times_;

        struct extract_key : public std::unary_function<Times::value_type, key_type>
            std::string operator()(Times::value_type const & r) const
                return r.first;

        struct extract_val : public std::unary_function<Times::value_type, time_type>
            time_type operator()(Times::value_type const & r) const
                return r.second;
        struct match_key : public std::unary_function<Times::value_type, bool>
            match_key(key_type const & key_) : key(key_) {};
            bool operator()(Times::value_type const & rhs) const
                return key == rhs.first;
            match_key& operator=(match_key&) { return * this; }
            const key_type key;

        struct accum_key : public std::binary_function<time_type, Times::value_type, time_type>
            accum_key(key_type const & key_) : key(key_), n(0) {};
            time_type operator()(time_type const & v, Times::value_type const & rhs) const
                if( key == rhs.first )
                    return rhs.second + v;
                return v;
            accum_key& operator=(accum_key&) { return * this; }
            const Times::key_type key;
            mutable size_t n;

파일 stringext.h(formatstr() 함수 제공):

namespace std
    /*  ---

    Formatted Print

        template<class C>
        int strprintf(basic_string<C>* pString, const C* pFmt, ...);

        template<class C>
        int vstrprintf(basic_string<C>* pString, const C* pFmt, va_list args);

    Returns :

        # characters printed to output

    Effects :

        Writes formatted data to a string.  strprintf() works exactly the same as sprintf(); see your
        documentation for sprintf() for details of peration.  vstrprintf() also works the same as sprintf(), 
        but instead of accepting a variable paramater list it accepts a va_list argument.

    Requires :

        pString is a pointer to a basic_string<>

    --- */

    template<class char_type> int vprintf_generic(char_type* buffer, size_t bufferSize, const char_type* format, va_list argptr);

    template<> inline int vprintf_generic<char>(char* buffer, size_t bufferSize, const char* format, va_list argptr)
#       ifdef SECURE_VSPRINTF
        return _vsnprintf_s(buffer, bufferSize-1, _TRUNCATE, format, argptr);
#       else
        return _vsnprintf(buffer, bufferSize-1, format, argptr);
#       endif

    template<> inline int vprintf_generic<wchar_t>(wchar_t* buffer, size_t bufferSize, const wchar_t* format, va_list argptr)
#       ifdef SECURE_VSPRINTF
        return _vsnwprintf_s(buffer, bufferSize-1, _TRUNCATE, format, argptr);
#       else
        return _vsnwprintf(buffer, bufferSize-1, format, argptr);
#       endif

    template<class Type, class Traits>
    inline int vstringprintf(basic_string<Type,Traits> & outStr, const Type* format, va_list args)
        // prologue
        static const size_t ChunkSize = 1024;
        size_t curBufSize = 0;

        if( !format )
            return 0;

        // keep trying to write the string to an ever-increasing buffer until
        // either we get the string written or we run out of memory
        while( bool cont = true )
            // allocate a local buffer
            curBufSize += ChunkSize;
            std::ref_ptr<Type> localBuffer = new Type[curBufSize];
            if( localBuffer.get() == 0 )
                // we ran out of memory -- nice goin'!
                return -1;
            // format output to local buffer
            int i = vprintf_generic(localBuffer.get(), curBufSize * sizeof(Type), format, args);
            if( -1 == i )
                // the buffer wasn't big enough -- try again
            else if( i < 0 )
                // something wierd happened -- bail
                return i;
            // if we get to this point the string was written completely -- stop looping
            return i;
        // unreachable code
        return -1;

    // provided for backward-compatibility
    template<class Type, class Traits>
    inline int vstrprintf(basic_string<Type,Traits> * outStr, const Type* format, va_list args)
        return vstringprintf(*outStr, format, args);

    template<class Char, class Traits>
    inline int stringprintf(std::basic_string<Char, Traits> & outString, const Char* format, ...)
        va_list args;
        va_start(args, format);
        int retval = vstringprintf(outString, format, args);
        return retval;

    // old function provided for backward-compatibility
    template<class Char, class Traits>
    inline int strprintf(std::basic_string<Char, Traits> * outString, const Char* format, ...)
        va_list args;
        va_start(args, format);
        int retval = vstringprintf(*outString, format, args);
        return retval;

    /*  ---

    Inline Formatted Print

        string strprintf(const char* Format, ...);

    Returns :

        Formatted string

    Effects :

        Writes formatted data to a string.  formatstr() works the same as sprintf(); see your
        documentation for sprintf() for details of operation.  

    --- */

    template<class Char>
    inline std::basic_string<Char> formatstr(const Char * format, ...)
        std::string outString;

        va_list args;
        va_start(args, format);
        vstringprintf(outString, format, args);
        return outString;

파일 알고리즘ext.h(transform_if() 함수 제공):

/*  ---


    template<class InputIterator, class OutputIterator, class UnaryOperation, class Predicate>
        OutputIterator transform_if(InputIterator first, InputIterator last, OutputIterator result, UnaryOperation op, Predicate pred)

    template<class InputIterator1, class InputIterator2, class OutputIterator, class BinaryOperation, class Predicate>
        OutputIterator transform_if(InputIterator first, InputIterator last, OutputIterator result, BinaryOperation binary_op, Predicate pred)


    T is of type EqualityComparable (20.1.1) 
    op and binary_op have no side effects

Effects :

    Assigns through every iterator i in the range [result, result + (last1-first1)) a new corresponding value equal to one of:
        1:  op( *(first1 + (i - result)) 
        2:  binary_op( *(first1 + (i - result), *(first2 + (i - result))

Returns :

    result + (last1 - first1)

Complexity :

    At most last1 - first1 applications of op or binary_op

--- */

template<class InputIterator, class OutputIterator, class UnaryFunction, class Predicate>
OutputIterator transform_if(InputIterator first, 
                            InputIterator last, 
                            OutputIterator result, 
                            UnaryFunction f, 
                            Predicate pred)
    for (; first != last; ++first)
        if( pred(*first) )
            *result++ = f(*first);
    return result; 

template<class InputIterator1, class InputIterator2, class OutputIterator, class BinaryOperation, class Predicate>
OutputIterator transform_if(InputIterator1 first1, 
                            InputIterator1 last1, 
                            InputIterator2 first2, 
                            OutputIterator result, 
                            BinaryOperation binary_op, 
                            Predicate pred)
    for (; first1 != last1 ; ++first1, ++first2)
        if( pred(*first1) )
            *result++ = binary_op(*first1,*first2);
    return result;

음, 두 개의 코드 조각이 있습니다.~ 안에 의사코드 그들은 다음과 같이 보입니다(단순화된 버전입니다. 저는 쿼리성능빈도 실제로):

첫 번째 스니펫:

Timer timer = new Timer

두 번째 스니펫:

show elapsed time

약간의 단축키 쿵푸를 사용하면 이 코드 조각이 내 CPU에서 얼마나 많은 시간을 훔쳤는지 알 수 있습니다.

기사 코드 프로파일러 및 최적화 C++ 코드 프로파일링에 대한 많은 정보가 있으며 다양한 코드 경로/방법에 대한 그래픽 프레젠테이션을 보여주는 프로그램/클래스에 대한 무료 다운로드 링크도 있습니다.

가장 엄격한 내부 루프에서도 프로파일링에 사용할 수 있는 빠르고 더러운 프로파일링 클래스가 있습니다.극도로 가벼운 무게와 심플한 코드에 중점을 두고 있습니다.클래스는 고정된 크기의 2차원 배열을 할당합니다.그런 다음 여기저기에 "체크포인트" 호출을 추가합니다.체크포인트 M 직후에 체크포인트 N에 도달하면 경과 시간(마이크로초 단위)을 배열 항목 [M,N]에 추가합니다.이는 긴밀한 루프를 프로파일링하도록 설계되었으므로 "마지막 체크포인트" 변수를 재설정하는 "반복 시작" 호출도 있습니다.테스트가 끝나면, dumpResults() 호출은 설명된 총 시간과 설명되지 않은 총 시간과 함께 서로 뒤따르는 모든 체크포인트 쌍의 목록을 생성합니다.

나는 다음과 같은 간단한 크로스 플랫폼 클래스를 작성했습니다. 나노타이머 이런 이유로.목표는 너무 많은 명령어를 추가하여 명령어 캐시에 영향을 주어 실제 코드 성능을 방해하지 않도록 최대한 경량화하는 것이었습니다.Windows, Mac, Linux(그리고 아마도 일부 Unix 변형)에서 마이크로초 정확도를 얻을 수 있습니다.

기본 사용법:

plf::timer t;

// stuff

double elapsed = t.get_elapsed_ns(); // Get nanoseconds

start()는 필요할 때 타이머도 다시 시작합니다.타이머를 "일시 중지"하려면 경과 시간을 저장한 다음 "일시 중지 해제" 시 타이머를 다시 시작하고 다음에 경과 시간을 확인할 때 저장된 결과에 추가하면 됩니다.

