質問

私はブースト::トークナイザを見てきた、と私はドキュメントが非常に薄いことがわかりました。 「 - サル - ヒヒイルカ」とすべての単語トークンだけでなく、すべてのダブルダッシュトークン作るそれはのような文字列をトークン化することが可能ですか?私が唯一許可される単一文字の区切り文字を見てきた例から。ライブラリは、より複雑な区切り文字のための十分進んでいない?

役に立ちましたか?

解決

それはあなたがhref="http://www.boost.org/doc/libs/1_39_0/libs/tokenizer/tokenizerfunction.htm" rel="nofollow noreferrer"> TokenizerFunction独自のします。

他のヒント

iter_splitを使用して複数の文字のトークンを使用することができます。 以下のコードは次のように生成します:

  イルカ
  月 - キー
  ヒヒ

#include <iostream>
#include <boost/foreach.hpp>
#include <boost/algorithm/string.hpp>
#include <boost/algorithm/string/iter_find.hpp>

    // code starts here
    std::string s = "dolphin--mon-key--baboon";
    std::list<std::string> stringList;
    boost::iter_split(stringList, s, boost::first_finder("--"));

    BOOST_FOREACH(std::string token, stringList)
    {    
        std::cout << token << '\n';  ;
    }

私はテーマはかなり古いですけど、私は、「文字列でトークナイザブースト」検索した場合、それは、Googleのトップのリンクに示されている。

私は念のために、TokenizerFunctionの私のバリアントを追加します。

class FindStrTFunc
{
public:
    FindStrTFunc() : m_str(g_dataSeparator)
    {
    }

    bool operator()(std::string::const_iterator& next,
        const std::string::const_iterator& end, std::string& tok) const
    {
        if (next == end)
        {
            return false;
        }
        const std::string::const_iterator foundToken =
            std::search(next, end, m_str.begin(), m_str.end());
        tok.assign(next, foundToken);
        next = (foundToken == end) ? end : foundToken + m_str.size();
        return true;
    }

    void reset()
    {
    }

private:
    std::string m_str;
};

私たちが作成することができた後、

boost::tokenizer<FindStrTFunc> tok("some input...some other input");

と通常のブーストトークナイザ

のように使用、

1つのオプションは、ブースト::正規表現を試してみることです。カスタムトークナイザと比較して、パフォーマンスのわからない。

std::string s = "dolphin--monkey--baboon";

boost::regex re("[a-z|A-Z]+|--");
boost::sregex_token_iterator iter(s.begin(), s.end() , re, 0);
boost::sregex_token_iterator end_iter;

while(iter != end_iter)
{
    std::cout << *iter << '\n';
    ++iter;
}
ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top