SQL Server: haga que todo el caso SUPERIOR se convierta en caso correcto

https://stackoverflow.com/questions/230138

04-07-2019
|

Pregunta

Tengo una tabla que se importó como todo MAYOR CASO y me gustaría convertirla en un caso adecuado. ¿Qué script han usado alguno de ustedes para completar esto?

Solución

Aquí hay un UDF que hará el truco ...

create function ProperCase(@Text as varchar(8000))
returns varchar(8000)
as
begin
  declare @Reset bit;
  declare @Ret varchar(8000);
  declare @i int;
  declare @c char(1);

  if @Text is null
    return null;

  select @Reset = 1, @i = 1, @Ret = '';

  while (@i <= len(@Text))
    select @c = substring(@Text, @i, 1),
      @Ret = @Ret + case when @Reset = 1 then UPPER(@c) else LOWER(@c) end,
      @Reset = case when @c like '[a-zA-Z]' then 0 else 1 end,
      @i = @i + 1
  return @Ret
end

Sin embargo, aún tendrá que usarlo para actualizar sus datos.

Otros consejos

Esta función:

" Casos correctos " todos " CASO SUPERIOR " palabras delimitadas por espacios en blanco
deja " palabras en minúscula " solo
funciona correctamente incluso para alfabetos que no están en inglés
es portátil en el sentido de que no utiliza características sofisticadas de las versiones recientes del servidor SQL
se puede cambiar fácilmente para usar NCHAR y NVARCHAR para la compatibilidad con Unicode, así como la longitud de cualquier parámetro que considere adecuado
la definición de espacio en blanco se puede configurar

CREATE FUNCTION ToProperCase(@string VARCHAR(255)) RETURNS VARCHAR(255)
AS
BEGIN
  DECLARE @i INT           -- index
  DECLARE @l INT           -- input length
  DECLARE @c NCHAR(1)      -- current char
  DECLARE @f INT           -- first letter flag (1/0)
  DECLARE @o VARCHAR(255)  -- output string
  DECLARE @w VARCHAR(10)   -- characters considered as white space

  SET @w = '[' + CHAR(13) + CHAR(10) + CHAR(9) + CHAR(160) + ' ' + ']'
  SET @i = 1
  SET @l = LEN(@string)
  SET @f = 1
  SET @o = ''

  WHILE @i <= @l
  BEGIN
    SET @c = SUBSTRING(@string, @i, 1)
    IF @f = 1 
    BEGIN
     SET @o = @o + @c
     SET @f = 0
    END
    ELSE
    BEGIN
     SET @o = @o + LOWER(@c)
    END

    IF @c LIKE @w SET @f = 1

    SET @i = @i + 1
  END

  RETURN @o
END

Resultado:

dbo.ToProperCase('ALL UPPER CASE and    SOME lower ÄÄ ÖÖ ÜÜ ÉÉ ØØ ĈĈ ÆÆ')
-----------------------------------------------------------------
All Upper Case and      Some lower Ää Öö Üü Éé Øø Cc Ææ

UPDATE titles
  SET title =
      UPPER(LEFT(title, 1)) +
        LOWER(RIGHT(title, LEN(title) - 1))

http://sqlmag.com/t-sql/how- título-caso-columna-valor

Si puede habilitar el CLR en SQL Server (requiere 2005 o posterior), entonces podría crea una función CLR que usa Función incorporada de TextInfo.ToTitleCase que le permitiría crear una forma cultural de hacerlo en solo unas pocas líneas de código.

Llegué un poco tarde en el juego, pero creo que es más funcional y funciona con cualquier idioma, incluyendo ruso, alemán, tailandés, vietnamita, etc. Hará mayúsculas cualquier cosa después de 'o - o. o (o) o espacio (obviamente :).

CREATE FUNCTION [dbo].[fnToProperCase]( @name nvarchar(500) )
RETURNS nvarchar(500)
AS
BEGIN
declare @pos    int = 1
      , @pos2   int

if (@name <> '')--or @name = lower(@name) collate SQL_Latin1_General_CP1_CS_AS or @name = upper(@name) collate SQL_Latin1_General_CP1_CS_AS)
begin
    set @name = lower(rtrim(@name))
    while (1 = 1)
    begin
        set @name = stuff(@name, @pos, 1, upper(substring(@name, @pos, 1)))
        set @pos2 = patindex('%[- ''.)(]%', substring(@name, @pos, 500))
        set @pos += @pos2
        if (isnull(@pos2, 0) = 0 or @pos > len(@name))
            break
    end
end

return @name
END
GO

Sé que esto es un post tardío en este hilo pero, vale la pena mirar. Esta función me funciona siempre. Así que pensé en compartirlo.

CREATE FUNCTION [dbo].[fnConvert_TitleCase] (@InputString VARCHAR(4000) )
RETURNS VARCHAR(4000)
AS
BEGIN
DECLARE @Index INT
DECLARE @Char CHAR(1)
DECLARE @OutputString VARCHAR(255)

SET @OutputString = LOWER(@InputString)
SET @Index = 2
SET @OutputString = STUFF(@OutputString, 1, 1,UPPER(SUBSTRING(@InputString,1,1)))

WHILE @Index <= LEN(@InputString)
BEGIN
    SET @Char = SUBSTRING(@InputString, @Index, 1)
    IF @Char IN (' ', ';', ':', '!', '?', ',', '.', '_', '-', '/', '&','''','(')
    IF @Index + 1 <= LEN(@InputString)
BEGIN
    IF @Char != ''''
    OR
    UPPER(SUBSTRING(@InputString, @Index + 1, 1)) != 'S'
    SET @OutputString =
    STUFF(@OutputString, @Index + 1, 1,UPPER(SUBSTRING(@InputString, @Index + 1, 1)))
END
    SET @Index = @Index + 1
END

RETURN ISNULL(@OutputString,'')
END

Llamadas de prueba:

select dbo.fnConvert_TitleCase(Upper('ÄÄ ÖÖ ÜÜ ÉÉ ØØ ĈĈ ÆÆ')) as test
select dbo.fnConvert_TitleCase(upper('Whatever the mind of man can conceive and believe, it can achieve. – Napoleon hill')) as test

Resultados:

ingrese la descripción de la imagen aquí

Si está en SSIS importando datos que se han mezclado en mayúsculas y necesita hacer una búsqueda en una columna con el caso apropiado, notará que la búsqueda falla cuando la fuente se mezcla y la fuente de búsqueda es correcta. También notará que no puede usar las funciones derecha e izquierda es SSIS para SQL Server 2008r2 para columnas derivadas. Aquí hay una solución que funciona para mí:

UPPER(substring(input_column_name,1,1)) + LOWER(substring(input_column_name, 2, len(input_column_name)-1))

El enlace que publiqué arriba es una excelente opción que aborda el problema principal: que nunca podemos dar cuenta de todos los casos de manera programática (Smith-Jones, von Haussen, John Smith M.D.), al menos no de una manera elegante. Tony introduce el concepto de un carácter de excepción / ruptura para tratar estos casos. De todos modos, basándose en la idea de Cervo (superior a todos los caracteres inferiores precedidos por espacio), las declaraciones de reemplazo podrían estar envueltas en una sola tabla basada en el reemplazo. Realmente, cualquier combinación de caracteres baja / arriba podría insertarse en @alpha y la declaración no cambiaría:

declare @str    nvarchar(8000)
declare @alpha  table (low nchar(1), up nchar(1))


set @str = 'ALL UPPER CASE and    SOME lower ÄÄ ÖÖ ÜÜ ÉÉ ØØ ĈĈ ÆÆ'

-- stage the alpha (needs number table)
insert into @alpha
    -- A-Z / a-z
    select      nchar(n+32),
                nchar(n)
    from        dbo.Number
    where       n between 65 and 90 or
                n between 192 and 223

-- append space at start of str
set @str = lower(' ' + @str)

-- upper all lower case chars preceded by space
select  @str = replace(@str, ' ' + low, ' ' + up) 
from    @Alpha

select @str

Aquí hay una versión que usa una secuencia o una tabla de números en lugar de un bucle. Puede modificar la cláusula WHERE para adaptar sus reglas personales sobre cuándo convertir un carácter a mayúsculas. Acabo de incluir un conjunto simple que pondrá en mayúscula cualquier letra que proceda de una no letra con la excepción de los apóstrofes. Esto significa que 123apple tendría una coincidencia en la " a " porque " 3 " no es una carta Si solo desea espacios en blanco (espacio, tabulador, retorno de carro, avance de línea), puede reemplazar el patrón '[^ az]' con '[' + Char (32 ) + Char (9) + Char (13) + Char (10) + ']' .

CREATE FUNCTION String.InitCap( @string nvarchar(4000) ) RETURNS nvarchar(4000) AS
BEGIN

-- 1. Convert all letters to lower case
    DECLARE @InitCap nvarchar(4000); SET @InitCap = Lower(@string);

-- 2. Using a Sequence, replace the letters that should be upper case with their upper case version
    SELECT @InitCap = Stuff( @InitCap, n, 1, Upper( SubString( @InitCap, n, 1 ) ) )
    FROM (
        SELECT (1 + n1.n + n10.n + n100.n + n1000.n) AS n
        FROM       (SELECT 0 AS n UNION SELECT    1 UNION SELECT    2 UNION SELECT    3 UNION SELECT    4 UNION SELECT    5 UNION SELECT    6 UNION SELECT    7 UNION SELECT    8 UNION SELECT    9) AS    n1
        CROSS JOIN (SELECT 0 AS n UNION SELECT   10 UNION SELECT   20 UNION SELECT   30 UNION SELECT   40 UNION SELECT   50 UNION SELECT   60 UNION SELECT   70 UNION SELECT   80 UNION SELECT   90) AS   n10
        CROSS JOIN (SELECT 0 AS n UNION SELECT  100 UNION SELECT  200 UNION SELECT  300 UNION SELECT  400 UNION SELECT  500 UNION SELECT  600 UNION SELECT  700 UNION SELECT  800 UNION SELECT  900) AS  n100
        CROSS JOIN (SELECT 0 AS n UNION SELECT 1000 UNION SELECT 2000 UNION SELECT 3000)                                                                                                             AS n1000
        ) AS Sequence
    WHERE 
        n BETWEEN 1 AND Len( @InitCap )
    AND SubString( @InitCap, n, 1 ) LIKE '[a-z]'                 /* this character is a letter */
    AND (
        n = 1                                                    /* this character is the first `character` */
        OR SubString( @InitCap, n-1, 1 ) LIKE '[^a-z]'           /* the previous character is NOT a letter */
        )
    AND (
        n < 3                                                    /* only test the 3rd or greater characters for this exception */
        OR SubString( @InitCap, n-2, 3 ) NOT LIKE '[a-z]''[a-z]' /* exception: The pattern <letter>'<letter> should not capatolize the letter following the apostrophy */
        )

-- 3. Return the modified version of the input
    RETURN @InitCap

END

Tendría sentido mantener una búsqueda de excepciones para cuidar de The von Neumann's, McCain's, DeGuzman's y Johnson-Smith's.

Creo que encontrarás lo siguiente más eficiente:

IF OBJECT_ID('dbo.ProperCase') IS NOT NULL
    DROP FUNCTION dbo.ProperCase
GO
CREATE FUNCTION dbo.PROPERCASE (
    @str VARCHAR(8000))
RETURNS VARCHAR(8000)
AS
BEGIN
    SET @str = ' ' + @str
    SET @str = REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE( @str, ' a', ' A'), ' b', ' B'), ' c', ' C'), ' d', ' D'), ' e', ' E'), ' f', ' F'), ' g', ' G'), ' h', ' H'), ' i', ' I'), ' j', ' J'), ' k', ' K'), ' l', ' L'), ' m', ' M'), ' n', ' N'), ' o', ' O'), ' p', ' P'), ' q', ' Q'), ' r', ' R'), ' s', ' S'), ' t', ' T'), ' u', ' U'), ' v', ' V'), ' w', ' W'), ' x', ' X'), ' y', ' Y'), ' z', ' Z')
    RETURN RIGHT(@str, LEN(@str) - 1)
END
GO

La declaración de reemplazo podría cortarse y pegarse directamente en una consulta SQL. Es muy feo, sin embargo, al reemplazar @str con la columna que le interesa, no pagará un precio por un cursor implícito como lo haría con los udfs así publicados. Creo que incluso usar mi UDF es mucho más eficiente.

Ah, y en lugar de generar la declaración de reemplazo a mano, use esto:

-- Code Generator for expression
DECLARE @x  INT,
    @c  CHAR(1),
    @sql    VARCHAR(8000)
SET @x = 0
SET @sql = '@str' -- actual variable/column you want to replace
WHILE @x < 26
BEGIN
    SET @c = CHAR(ASCII('a') + @x)
    SET @sql = 'REPLACE(' + @sql + ', '' ' + @c+  ''', '' ' + UPPER(@c) + ''')'
    SET @x = @x + 1
END
PRINT @sql

De todos modos depende del número de filas. Ojalá pudieras hacer s / \ b ([a-z]) / uc $ 1 /, pero bueno, trabajamos con las herramientas que tenemos.

NOTA: tendría que usar esto ya que tendría que usarlo como ... SELECCIONE dbo.ProperCase (LOWER (column)) ya que la columna está en mayúscula. En realidad, funciona bastante rápido en mi tabla de 5,000 entradas (ni siquiera un segundo) incluso con la inferior.

En respuesta a la avalancha de comentarios sobre la internacionalización, presento la siguiente implementación que maneja cada carácter ascii confiando solo en la Implementación de SQL Server de superior e inferior. Recuerde, las variables que estamos usando aquí son VARCHAR, lo que significa que solo pueden contener valores ASCII. Para usar más alfabetos internacionales, tienes que usar NVARCHAR. La lógica sería similar, pero necesitaría usar UNICODE y NCHAR en lugar de ASCII Y CHAR y la declaración de reemplazo sería mucho más grande ...

-- Code Generator for expression
DECLARE @x  INT,
    @c  CHAR(1),
    @sql    VARCHAR(8000),
    @count  INT
SEt @x = 0
SET @count = 0
SET @sql = '@str' -- actual variable you want to replace
WHILE @x < 256
BEGIN
    SET @c = CHAR(@x)
    -- Only generate replacement expression for characters where upper and lowercase differ
    IF @x = ASCII(LOWER(@c)) AND @x != ASCII(UPPER(@c))
    BEGIN
        SET @sql = 'REPLACE(' + @sql + ', '' ' + @c+  ''', '' ' + UPPER(@c) + ''')'
        SET @count = @count + 1
    END
    SET @x = @x + 1
END
PRINT @sql
PRINT 'Total characters substituted: ' + CONVERT(VARCHAR(255), @count)

Básicamente, la premisa de mi método es intercambiar la precomputación por eficiencia. La implementación completa de ASCII es la siguiente:

IF OBJECT_ID('dbo.ProperCase') IS NOT NULL
    DROP FUNCTION dbo.ProperCase
GO
CREATE FUNCTION dbo.PROPERCASE (
    @str VARCHAR(8000))
RETURNS VARCHAR(8000)
AS
BEGIN
    SET @str = ' ' + @str
SET @str =     REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(@str, ' a', ' A'), ' b', ' B'), ' c', ' C'), ' d', ' D'), ' e', ' E'), ' f', ' F'), ' g', ' G'), ' h', ' H'), ' i', ' I'), ' j', ' J'), ' k', ' K'), ' l', ' L'), ' m', ' M'), ' n', ' N'), ' o', ' O'), ' p', ' P'), ' q', ' Q'), ' r', ' R'), ' s', ' S'), ' t', ' T'), ' u', ' U'), ' v', ' V'), ' w', ' W'), ' x', ' X'), ' y', ' Y'), ' z', ' Z'), ' š', ' Š'), ' œ', ' Œ'), ' ž', ' Ž'), ' à', ' À'), ' á', ' Á'), ' â', ' Â'), ' ã', ' Ã'), ' ä', ' Ä'), ' å', ' Å'), ' æ', ' Æ'), ' ç', ' Ç'), ' è', ' È'), ' é', ' É'), ' ê', ' Ê'), ' ë', ' Ë'), ' ì', ' Ì'), ' í', ' Í'), ' î', ' Î'), ' ï', ' Ï'), ' ð', ' Ð'), ' ñ', ' Ñ'), ' ò', ' Ò'), ' ó', ' Ó'), ' ô', ' Ô'), ' õ', ' Õ'), ' ö', ' Ö'), ' ø', ' Ø'), ' ù', ' Ù'), ' ú', ' Ú'), ' û', ' Û'), ' ü', ' Ü'), ' ý', ' Ý'), ' þ', ' Þ'), ' ÿ', ' Ÿ')
    RETURN RIGHT(@str, LEN(@str) - 1)
END
GO

¿Es demasiado tarde para regresar y obtener los datos sin mayúsculas?

Puede que a von Neumann's, McCain's, DeGuzman's y Johnson-Smith's de su base de clientes no les guste el resultado de su procesamiento ...

Además, ¿supongo que esto pretende ser una actualización única de los datos? Puede ser más fácil exportar, filtrar / modificar y volver a importar los nombres corregidos en la base de datos, y luego puede usar enfoques que no sean SQL para la fijación de nombres ...

Aquí hay otra variación que encontré en los foros de SQLTeam.com @ http://www.sqlteam.com/forums/topic.asp?TOPIC_ID= 47718

create FUNCTION PROPERCASE
(
--The string to be converted to proper case
@input varchar(8000)
)
--This function returns the proper case string of varchar type
RETURNS varchar(8000)
AS
BEGIN
IF @input IS NULL
BEGIN
--Just return NULL if input string is NULL
RETURN NULL
END

--Character variable declarations
DECLARE @output varchar(8000)
--Integer variable declarations
DECLARE @ctr int, @len int, @found_at int
--Constant declarations
DECLARE @LOWER_CASE_a int, @LOWER_CASE_z int, @Delimiter char(3), @UPPER_CASE_A int, @UPPER_CASE_Z int

--Variable/Constant initializations
SET @ctr = 1
SET @len = LEN(@input)
SET @output = ''
SET @LOWER_CASE_a = 97
SET @LOWER_CASE_z = 122
SET @Delimiter = ' ,-'
SET @UPPER_CASE_A = 65
SET @UPPER_CASE_Z = 90

WHILE @ctr <= @len
BEGIN
--This loop will take care of reccuring white spaces
WHILE CHARINDEX(SUBSTRING(@input,@ctr,1), @Delimiter) > 0
BEGIN
SET @output = @output + SUBSTRING(@input,@ctr,1)
SET @ctr = @ctr + 1
END

IF ASCII(SUBSTRING(@input,@ctr,1)) BETWEEN @LOWER_CASE_a AND @LOWER_CASE_z
BEGIN
--Converting the first character to upper case
SET @output = @output + UPPER(SUBSTRING(@input,@ctr,1))
END
ELSE
BEGIN
SET @output = @output + SUBSTRING(@input,@ctr,1)
END

SET @ctr = @ctr + 1

WHILE CHARINDEX(SUBSTRING(@input,@ctr,1), @Delimiter) = 0 AND (@ctr <= @len)
BEGIN
IF ASCII(SUBSTRING(@input,@ctr,1)) BETWEEN @UPPER_CASE_A AND @UPPER_CASE_Z
BEGIN
SET @output = @output + LOWER(SUBSTRING(@input,@ctr,1))
END
ELSE
BEGIN
SET @output = @output + SUBSTRING(@input,@ctr,1)
END
SET @ctr = @ctr + 1
END

END
RETURN @output
END



GO
SET QUOTED_IDENTIFIER OFF
GO
SET ANSI_NULLS ON
GO

Sé que el diablo está en los detalles (especialmente en lo que respecta a los datos personales de las personas), y que sería muy bueno tener nombres en mayúsculas, pero el problema anterior es la razón por la cual los pragmáticos, conscientes del tiempo usa lo siguiente:

SELECCIONAR SUPERIOR ('Poner YoUR O'So casado de forma extraña McWeird-nAme von right AQUÍ')

En mi experiencia, la gente está bien viendo SU NOMBRE ... incluso cuando está a mitad de una oración.

Consulte: ¡los rusos usaron un lápiz!

Acabo de aprender sobre InitCap () .

Aquí hay un código de muestra:

SELECT ID
      ,InitCap(LastName ||', '|| FirstName ||' '|| Nvl(MiddleName,'')) AS RecipientName
FROM SomeTable

Esto funcionó en SSMS:

Select Jobtitle,
concat(Upper(LEFT(jobtitle,1)), SUBSTRING(jobtitle,2,LEN(jobtitle))) as Propercase
From [HumanResources].[Employee]

Se prestó y mejoró en la respuesta de @Richard Sayakanit. Esto maneja múltiples palabras. Al igual que su respuesta, esto no utiliza ningún UDF, solo funciones integradas ( STRING_SPLIT y STRING_AGG ) y es bastante rápido. STRING_AGG requiere SQL Server 2017 pero siempre puede usar el truco STUFF / XML . No manejará todas las excepciones, pero puede funcionar muy bien para muchos requisitos.

SELECT StateName = 'North Carolina' 
INTO #States
UNION ALL
SELECT 'Texas'


;WITH cteData AS 
(
    SELECT 
        UPPER(LEFT(value, 1)) +
            LOWER(RIGHT(value, LEN(value) - 1)) value, op.StateName
    FROM   #States op
    CROSS APPLY STRING_SPLIT(op.StateName, ' ') AS ss
)
SELECT 
    STRING_AGG(value, ' ')
FROM cteData c 
GROUP BY StateName

Si sabe que todos los datos son solo una palabra, aquí hay una solución. Primero actualice la columna a todas las inferiores y luego ejecute lo siguiente

    update tableName set columnName = 
    upper(SUBSTRING(columnName, 1, 1)) + substring(columnName, 2, len(columnName)) from tableName

Una ligera modificación en la respuesta de @Galwegian - que gira, por ejemplo, St Elizabeth's en St Elizabeth'S .

Esta modificación mantiene las apóstrofes-s en minúsculas, donde las s vienen al final de la cadena proporcionada o a las s le sigue un espacio (y solo en esas circunstancias).

create function properCase(@text as varchar(8000))
returns varchar(8000)
as
begin
    declare @reset int;
    declare @ret varchar(8000);
    declare @i int;
    declare @c char(1);
    declare @d char(1);

    if @text is null
    return null;

    select @reset = 1, @i = 1, @ret = '';

    while (@i <= len(@text))
    select
        @c = substring(@text, @i, 1),
        @d = substring(@text, @i+1, 1),
        @ret = @ret + case when @reset = 1 or (@reset=-1 and @c!='s') or (@reset=-1 and @c='s' and @d!=' ') then upper(@c) else lower(@c) end,
        @reset = case when @c like '[a-za-z]' then 0 when @c='''' then -1 else 1 end,
        @i = @i + 1
    return @ret
end

Gira:

st elizabeth's en St Elizabeth's
o'keefe en O'Keefe
o'sullivan en O'Sullivan

Los comentarios de otros de que las diferentes soluciones son preferibles para la entrada en un idioma distinto al inglés siguen siendo el caso.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow