lix/src/libutil/shlex.cc

#include "shlex.hh"
#include "strings.hh"

namespace nix {

std::vector<std::string> shell_split(const std::string & input)
{
    std::vector<std::string> result;

    // Hack: `shell_split` is janky and parses ` a` as `{"", "a"}`, so we trim
    // whitespace before starting.
    auto inputTrimmed = trim(input);

    if (inputTrimmed.empty()) {
        return result;
    }

    std::regex whitespace("^\\s+");
    auto begin = inputTrimmed.cbegin();
    std::string currentToken;
    enum State { sBegin, sSingleQuote, sDoubleQuote };
    State state = sBegin;
    auto iterator = begin;

    for (; iterator != inputTrimmed.cend(); ++iterator) {
        if (state == sBegin) {
            std::smatch match;
            if (regex_search(iterator, inputTrimmed.cend(), match, whitespace)) {
                currentToken.append(begin, iterator);
                result.push_back(currentToken);
                iterator = match[0].second;
                if (iterator == inputTrimmed.cend()) {
                    return result;
                }
                begin = iterator;
                currentToken.clear();
            }
        }

        switch (*iterator) {
        case '\'':
            if (state != sDoubleQuote) {
                currentToken.append(begin, iterator);
                begin = iterator + 1;
                state = state == sBegin ? sSingleQuote : sBegin;
            }
            break;

        case '"':
            if (state != sSingleQuote) {
                currentToken.append(begin, iterator);
                begin = iterator + 1;
                state = state == sBegin ? sDoubleQuote : sBegin;
            }
            break;

        case '\\':
            if (state != sSingleQuote) {
                // perl shellwords mostly just treats the next char as part
                // of the string with no special processing
                currentToken.append(begin, iterator);
                begin = ++iterator;
            }
            break;
        }
    }

    if (state != sBegin) {
        throw ShlexError(input);
    }

    currentToken.append(begin, iterator);
    result.push_back(currentToken);
    return result;
}

}
Move `shell_words` into its own file Change-Id: I34c0ebfb6dcea49bf632d8880e04075335a132bf 2024-03-15 00:44:43 +00:00			`#include "shlex.hh"`
util.{hh,cc}: Split out strings.{hh,cc} Change-Id: I4f642d1046d56b5db26f1b0296ee16a0e02d444a 2024-05-28 12:57:20 +00:00			`#include "strings.hh"`
Move `shell_words` into its own file Change-Id: I34c0ebfb6dcea49bf632d8880e04075335a132bf 2024-03-15 00:44:43 +00:00
			`namespace nix {`

			`std::vector<std::string> shell_split(const std::string & input)`
			`{`
			`std::vector<std::string> result;`

			// Hack: `shell_split` is janky and parses ` a` as `{"", "a"}`, so we trim
			`// whitespace before starting.`
			`auto inputTrimmed = trim(input);`

			`if (inputTrimmed.empty()) {`
			`return result;`
			`}`

			`std::regex whitespace("^\\s+");`
			`auto begin = inputTrimmed.cbegin();`
			`std::string currentToken;`
			`enum State { sBegin, sSingleQuote, sDoubleQuote };`
			`State state = sBegin;`
			`auto iterator = begin;`

			`for (; iterator != inputTrimmed.cend(); ++iterator) {`
			`if (state == sBegin) {`
			`std::smatch match;`
			`if (regex_search(iterator, inputTrimmed.cend(), match, whitespace)) {`
			`currentToken.append(begin, iterator);`
			`result.push_back(currentToken);`
			`iterator = match[0].second;`
			`if (iterator == inputTrimmed.cend()) {`
			`return result;`
			`}`
			`begin = iterator;`
			`currentToken.clear();`
			`}`
			`}`

			`switch (*iterator) {`
			`case '\'':`
			`if (state != sDoubleQuote) {`
			`currentToken.append(begin, iterator);`
			`begin = iterator + 1;`
			`state = state == sBegin ? sSingleQuote : sBegin;`
			`}`
			`break;`

			`case '"':`
			`if (state != sSingleQuote) {`
			`currentToken.append(begin, iterator);`
			`begin = iterator + 1;`
			`state = state == sBegin ? sDoubleQuote : sBegin;`
			`}`
			`break;`

			`case '\\':`
			`if (state != sSingleQuote) {`
			`// perl shellwords mostly just treats the next char as part`
			`// of the string with no special processing`
			`currentToken.append(begin, iterator);`
			`begin = ++iterator;`
			`}`
			`break;`
			`}`
			`}`

			`if (state != sBegin) {`
			`throw ShlexError(input);`
			`}`

			`currentToken.append(begin, iterator);`
			`result.push_back(currentToken);`
			`return result;`
			`}`

			`}`