Pregunta

Me gustaría escribir un método de extensión para la clase .NET String. Me gustaría que fuera una varación especial en el método Split, una que toma un carácter de escape para evitar dividir la cadena cuando se usa un carácter de escape antes del separador.

¿Cuál es la mejor manera de escribir esto? Tengo curiosidad por saber cuál es la mejor forma de no usar expresiones regulares para abordarlo.
Algo con una firma como ...

public static string[] Split(this string input, string separator, char escapeCharacter)
{
   // ...
}

ACTUALIZACIÓN: Debido a que surgió en uno de los comentarios, el escape ...

En C # al escapar caracteres no especiales, aparece el error - CS1009: secuencia de escape no reconocida.

En IE JScript, los caracteres de escape se descartan. A menos que intente \ uy obtenga un " dígito hexadecimal esperado " error. Probé Firefox y tiene el mismo comportamiento.

Me gustaría que este método sea bastante indulgente y siga el modelo de JavaScript. Si escapas en un no separador, debería simplemente "amablemente" eliminar el carácter de escape.

¿Fue útil?

Solución

¿Qué tal:

public static IEnumerable<string> Split(this string input, 
                                        string separator,
                                        char escapeCharacter)
{
    int startOfSegment = 0;
    int index = 0;
    while (index < input.Length)
    {
        index = input.IndexOf(separator, index);
        if (index > 0 && input[index-1] == escapeCharacter)
        {
            index += separator.Length;
            continue;
        }
        if (index == -1)
        {
            break;
        }
        yield return input.Substring(startOfSegment, index-startOfSegment);
        index += separator.Length;
        startOfSegment = index;
    }
    yield return input.Substring(startOfSegment);
}

Eso parece funcionar (con algunas cadenas de prueba rápidas), pero no elimina el carácter de escape, eso dependerá de su situación exacta, sospecho.

Otros consejos

Esto tendrá que limpiarse un poco, pero esto es esencialmente ...

List<string> output = new List<string>();
for(int i=0; i<input.length; ++i)
{
    if (input[i] == separator && (i==0 || input[i-1] != escapeChar))
    {
        output.Add(input.substring(j, i-j);
        j=i;
    }
}

return output.ToArray();

Mi primera observación es que el separador debe ser un carácter, no una cadena, ya que escapar de una cadena con un solo carácter puede ser difícil: ¿cuánto de la siguiente cadena cubre el carácter de escape? Aparte de eso, la respuesta de @James Curran es más o menos cómo lo manejaría, aunque, como él dice, necesita una limpieza. Inicializando j a 0 en el inicializador de bucle, por ejemplo. Descubrir cómo manejar entradas nulas, etc.

Probablemente también desee admitir StringSplitOptions y especificar si se debe devolver una cadena vacía en la colección.

Aquí hay una solución si desea eliminar el carácter de escape.

public static IEnumerable<string> Split(this string input, 
                                        string separator, 
                                        char escapeCharacter) {
    string[] splitted = input.Split(new[] { separator });
    StringBuilder sb = null;

    foreach (string subString in splitted) {
        if (subString.EndsWith(escapeCharacter.ToString())) {
            if (sb == null)
                sb = new StringBuilder();
            sb.Append(subString, 0, subString.Length - 1);
        } else {
            if (sb == null)
                yield return subString;
            else {
                sb.Append(subString);
                yield return sb.ToString();
                sb = null;
            }
        }
    }
    if (sb != null)
        yield return sb.ToString();
}

Puedes probar algo como esto. Sin embargo, sugeriría implementar con código inseguro para tareas críticas de rendimiento.

public static class StringExtensions
{
    public static string[] Split(this string text, char escapeChar, params char[] seperator)
    {
        return Split(text, escapeChar, seperator, int.MaxValue, StringSplitOptions.None);
    }

    public static string[] Split(this string text, char escapeChar, char[] seperator, int count)
    {
        return Split(text, escapeChar, seperator, count, StringSplitOptions.None);
    }

    public static string[] Split(this string text, char escapeChar, char[] seperator, StringSplitOptions options)
    {
        return Split(text, escapeChar, seperator, int.MaxValue, options);
    }

    public static string[] Split(this string text, char escapeChar, char[] seperator, int count, StringSplitOptions options)
    {
        if (text == null)
        {
            throw new ArgumentNullException("text");
        }

        if (text.Length == 0)
        {
            return new string[0];
        }

        var segments = new List<string>();

        bool previousCharIsEscape = false;
        var segment = new StringBuilder();

        for (int i = 0; i < text.Length; i++)
        {
            if (previousCharIsEscape)
            {
                previousCharIsEscape = false;

                if (seperator.Contains(text[i]))
                {
                    // Drop the escape character when it escapes a seperator character.
                    segment.Append(text[i]);
                    continue;
                }

                // Retain the escape character when it escapes any other character.
                segment.Append(escapeChar);
                segment.Append(text[i]);
                continue;
            }

            if (text[i] == escapeChar)
            {
                previousCharIsEscape = true;
                continue;
            }

            if (seperator.Contains(text[i]))
            {
                if (options != StringSplitOptions.RemoveEmptyEntries || segment.Length != 0)
                {
                    // Only add empty segments when options allow.
                    segments.Add(segment.ToString());
                }

                segment = new StringBuilder();
                continue;
            }

            segment.Append(text[i]);
        }

        if (options != StringSplitOptions.RemoveEmptyEntries || segment.Length != 0)
        {
            // Only add empty segments when options allow.
            segments.Add(segment.ToString());
        }

        return segments.ToArray();
    }
}
public static string[] Split(this string input, string separator, char escapeCharacter)
{
    Guid g = Guid.NewGuid();
    input = input.Replace(escapeCharacter.ToString() + separator, g.ToString());
    string[] result = input.Split(new string []{separator}, StringSplitOptions.None);
    for (int i = 0; i < result.Length; i++)
    {
        result[i] = result[i].Replace(g.ToString(), escapeCharacter.ToString() + separator);
    }

    return result;
}

Probablemente no sea la mejor manera de hacerlo, pero es otra alternativa. Básicamente, en todas partes se encuentra la secuencia de escape + separador, reemplácela con un GUID (puede usar cualquier otra basura aleatoria aquí, no importa). Luego use la función de división integrada. Luego reemplace el guid en cada elemento de la matriz con el escape + separador.

La firma es incorrecta, debe devolver una matriz de cadenas ADVERTENCIA NUNCA UTILIZÓ EXTENSIONES, así que perdóneme por algunos errores;)

public static List<String> Split(this string input, string separator, char escapeCharacter)
{
    String word = "";
    List<String> result = new List<string>();
    for (int i = 0; i < input.Length; i++)
    {
//can also use switch
        if (input[i] == escapeCharacter)
        {
            break;
        }
        else if (input[i] == separator)
        {
            result.Add(word);
            word = "";
        }
        else
        {
            word += input[i];    
        }
    }
    return result;
}

Personalmente, haría trampa y echaría un vistazo a la cadena. Divide usando el reflector ... InternalSplitOmitEmptyEntries parece útil ;-)

También tuve este problema y no encontré una solución. Así que escribí ese método yo mismo:

    public static IEnumerable<string> Split(
        this string text, 
        char separator, 
        char escapeCharacter)
    {
        var builder = new StringBuilder(text.Length);

        bool escaped = false;
        foreach (var ch in text)
        {
            if (separator == ch && !escaped)
            {
                yield return builder.ToString();
                builder.Clear();
            }
            else
            {
                // separator is removed, escape characters are kept
                builder.Append(ch);
            }
            // set escaped for next cycle, 
            // or reset unless escape character is escaped.
            escaped = escapeCharacter == ch && !escaped;
        }
        yield return builder.ToString();
    }

Se combina con Escape y Unescape, que escapa del separador y el carácter de escape y elimina los caracteres de escape nuevamente:

    public static string Escape(this string text, string controlChars, char escapeCharacter)
    {
        var builder = new StringBuilder(text.Length + 3);
        foreach (var ch in text)
        {
            if (controlChars.Contains(ch))
            {
                builder.Append(escapeCharacter);
            }
            builder.Append(ch);
        }
        return builder.ToString();
    }

    public static string Unescape(string text, char escapeCharacter)
    {
        var builder = new StringBuilder(text.Length);
        bool escaped = false;
        foreach (var ch in text)
        {
            escaped = escapeCharacter == ch && !escaped;
            if (!escaped)
            {
                builder.Append(ch);
            }
        }
        return builder.ToString();
    }

Ejemplos de escape / unescape

separator = ','
escapeCharacter = '\\'
//controlCharacters is always separator + escapeCharacter

@"AB,CD\EF\," <=> @"AB\,CD\\EF\\\,"

Split:

@"AB,CD\,EF\\,GH\\\,IJ" => [@"AB", @"CD\,EF\\", @"GH\\\,IJ"]

Entonces, para usarlo, Escape antes de Unirse y Unescape después de Split.

public string RemoveMultipleDelimiters(string sSingleLine)
{
    string sMultipleDelimitersLine = "";
    string sMultipleDelimitersLine1 = "";
    int iDelimeterPosition = -1;
    iDelimeterPosition = sSingleLine.IndexOf('>');
    iDelimeterPosition = sSingleLine.IndexOf('>', iDelimeterPosition + 1);
    if (iDelimeterPosition > -1)
    {
        sMultipleDelimitersLine = sSingleLine.Substring(0, iDelimeterPosition - 1);
        sMultipleDelimitersLine1 = sSingleLine.Substring(sSingleLine.IndexOf('>', iDelimeterPosition) - 1);
        sMultipleDelimitersLine1 = sMultipleDelimitersLine1.Replace('>', '*');
        sSingleLine = sMultipleDelimitersLine + sMultipleDelimitersLine1;
    }
    return sSingleLine;
}
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top