SQL Server: haga que todo el caso SUPERIOR se convierta en caso correcto
-
04-07-2019 - |
Pregunta
Tengo una tabla que se importó como todo MAYOR CASO y me gustaría convertirla en un caso adecuado. ¿Qué script han usado alguno de ustedes para completar esto?
Solución
Aquí hay un UDF que hará el truco ...
create function ProperCase(@Text as varchar(8000))
returns varchar(8000)
as
begin
declare @Reset bit;
declare @Ret varchar(8000);
declare @i int;
declare @c char(1);
if @Text is null
return null;
select @Reset = 1, @i = 1, @Ret = '';
while (@i <= len(@Text))
select @c = substring(@Text, @i, 1),
@Ret = @Ret + case when @Reset = 1 then UPPER(@c) else LOWER(@c) end,
@Reset = case when @c like '[a-zA-Z]' then 0 else 1 end,
@i = @i + 1
return @Ret
end
Sin embargo, aún tendrá que usarlo para actualizar sus datos.
Otros consejos
Esta función:
- " Casos correctos " todos " CASO SUPERIOR " palabras delimitadas por espacios en blanco
- deja " palabras en minúscula " solo
- funciona correctamente incluso para alfabetos que no están en inglés
- es portátil en el sentido de que no utiliza características sofisticadas de las versiones recientes del servidor SQL
- se puede cambiar fácilmente para usar NCHAR y NVARCHAR para la compatibilidad con Unicode, así como la longitud de cualquier parámetro que considere adecuado
- la definición de espacio en blanco se puede configurar
CREATE FUNCTION ToProperCase(@string VARCHAR(255)) RETURNS VARCHAR(255)
AS
BEGIN
DECLARE @i INT -- index
DECLARE @l INT -- input length
DECLARE @c NCHAR(1) -- current char
DECLARE @f INT -- first letter flag (1/0)
DECLARE @o VARCHAR(255) -- output string
DECLARE @w VARCHAR(10) -- characters considered as white space
SET @w = '[' + CHAR(13) + CHAR(10) + CHAR(9) + CHAR(160) + ' ' + ']'
SET @i = 1
SET @l = LEN(@string)
SET @f = 1
SET @o = ''
WHILE @i <= @l
BEGIN
SET @c = SUBSTRING(@string, @i, 1)
IF @f = 1
BEGIN
SET @o = @o + @c
SET @f = 0
END
ELSE
BEGIN
SET @o = @o + LOWER(@c)
END
IF @c LIKE @w SET @f = 1
SET @i = @i + 1
END
RETURN @o
END
Resultado:
dbo.ToProperCase('ALL UPPER CASE and SOME lower ÄÄ ÖÖ ÜÜ ÉÉ ØØ ĈĈ ÆÆ')
-----------------------------------------------------------------
All Upper Case and Some lower Ää Öö Üü Éé Øø Cc Ææ
UPDATE titles
SET title =
UPPER(LEFT(title, 1)) +
LOWER(RIGHT(title, LEN(title) - 1))
Si puede habilitar el CLR en SQL Server (requiere 2005 o posterior), entonces podría crea una función CLR que usa Función incorporada de TextInfo.ToTitleCase que le permitiría crear una forma cultural de hacerlo en solo unas pocas líneas de código.
Llegué un poco tarde en el juego, pero creo que es más funcional y funciona con cualquier idioma, incluyendo ruso, alemán, tailandés, vietnamita, etc. Hará mayúsculas cualquier cosa después de 'o - o. o (o) o espacio (obviamente :).
CREATE FUNCTION [dbo].[fnToProperCase]( @name nvarchar(500) )
RETURNS nvarchar(500)
AS
BEGIN
declare @pos int = 1
, @pos2 int
if (@name <> '')--or @name = lower(@name) collate SQL_Latin1_General_CP1_CS_AS or @name = upper(@name) collate SQL_Latin1_General_CP1_CS_AS)
begin
set @name = lower(rtrim(@name))
while (1 = 1)
begin
set @name = stuff(@name, @pos, 1, upper(substring(@name, @pos, 1)))
set @pos2 = patindex('%[- ''.)(]%', substring(@name, @pos, 500))
set @pos += @pos2
if (isnull(@pos2, 0) = 0 or @pos > len(@name))
break
end
end
return @name
END
GO
Sé que esto es un post tardío en este hilo pero, vale la pena mirar. Esta función me funciona siempre. Así que pensé en compartirlo.
CREATE FUNCTION [dbo].[fnConvert_TitleCase] (@InputString VARCHAR(4000) )
RETURNS VARCHAR(4000)
AS
BEGIN
DECLARE @Index INT
DECLARE @Char CHAR(1)
DECLARE @OutputString VARCHAR(255)
SET @OutputString = LOWER(@InputString)
SET @Index = 2
SET @OutputString = STUFF(@OutputString, 1, 1,UPPER(SUBSTRING(@InputString,1,1)))
WHILE @Index <= LEN(@InputString)
BEGIN
SET @Char = SUBSTRING(@InputString, @Index, 1)
IF @Char IN (' ', ';', ':', '!', '?', ',', '.', '_', '-', '/', '&','''','(')
IF @Index + 1 <= LEN(@InputString)
BEGIN
IF @Char != ''''
OR
UPPER(SUBSTRING(@InputString, @Index + 1, 1)) != 'S'
SET @OutputString =
STUFF(@OutputString, @Index + 1, 1,UPPER(SUBSTRING(@InputString, @Index + 1, 1)))
END
SET @Index = @Index + 1
END
RETURN ISNULL(@OutputString,'')
END
Llamadas de prueba:
select dbo.fnConvert_TitleCase(Upper('ÄÄ ÖÖ ÜÜ ÉÉ ØØ ĈĈ ÆÆ')) as test
select dbo.fnConvert_TitleCase(upper('Whatever the mind of man can conceive and believe, it can achieve. – Napoleon hill')) as test
Resultados:
Si está en SSIS importando datos que se han mezclado en mayúsculas y necesita hacer una búsqueda en una columna con el caso apropiado, notará que la búsqueda falla cuando la fuente se mezcla y la fuente de búsqueda es correcta. También notará que no puede usar las funciones derecha e izquierda es SSIS para SQL Server 2008r2 para columnas derivadas. Aquí hay una solución que funciona para mí:
UPPER(substring(input_column_name,1,1)) + LOWER(substring(input_column_name, 2, len(input_column_name)-1))
El enlace que publiqué arriba es una excelente opción que aborda el problema principal: que nunca podemos dar cuenta de todos los casos de manera programática (Smith-Jones, von Haussen, John Smith M.D.), al menos no de una manera elegante. Tony introduce el concepto de un carácter de excepción / ruptura para tratar estos casos. De todos modos, basándose en la idea de Cervo (superior a todos los caracteres inferiores precedidos por espacio), las declaraciones de reemplazo podrían estar envueltas en una sola tabla basada en el reemplazo. Realmente, cualquier combinación de caracteres baja / arriba podría insertarse en @alpha y la declaración no cambiaría:
declare @str nvarchar(8000)
declare @alpha table (low nchar(1), up nchar(1))
set @str = 'ALL UPPER CASE and SOME lower ÄÄ ÖÖ ÜÜ ÉÉ ØØ ĈĈ ÆÆ'
-- stage the alpha (needs number table)
insert into @alpha
-- A-Z / a-z
select nchar(n+32),
nchar(n)
from dbo.Number
where n between 65 and 90 or
n between 192 and 223
-- append space at start of str
set @str = lower(' ' + @str)
-- upper all lower case chars preceded by space
select @str = replace(@str, ' ' + low, ' ' + up)
from @Alpha
select @str
Aquí hay una versión que usa una secuencia o una tabla de números en lugar de un bucle. Puede modificar la cláusula WHERE para adaptar sus reglas personales sobre cuándo convertir un carácter a mayúsculas. Acabo de incluir un conjunto simple que pondrá en mayúscula cualquier letra que proceda de una no letra con la excepción de los apóstrofes. Esto significa que 123apple tendría una coincidencia en la " a " porque " 3 " no es una carta Si solo desea espacios en blanco (espacio, tabulador, retorno de carro, avance de línea), puede reemplazar el patrón '[^ az]'
con '[' + Char (32 ) + Char (9) + Char (13) + Char (10) + ']'
.
CREATE FUNCTION String.InitCap( @string nvarchar(4000) ) RETURNS nvarchar(4000) AS
BEGIN
-- 1. Convert all letters to lower case
DECLARE @InitCap nvarchar(4000); SET @InitCap = Lower(@string);
-- 2. Using a Sequence, replace the letters that should be upper case with their upper case version
SELECT @InitCap = Stuff( @InitCap, n, 1, Upper( SubString( @InitCap, n, 1 ) ) )
FROM (
SELECT (1 + n1.n + n10.n + n100.n + n1000.n) AS n
FROM (SELECT 0 AS n UNION SELECT 1 UNION SELECT 2 UNION SELECT 3 UNION SELECT 4 UNION SELECT 5 UNION SELECT 6 UNION SELECT 7 UNION SELECT 8 UNION SELECT 9) AS n1
CROSS JOIN (SELECT 0 AS n UNION SELECT 10 UNION SELECT 20 UNION SELECT 30 UNION SELECT 40 UNION SELECT 50 UNION SELECT 60 UNION SELECT 70 UNION SELECT 80 UNION SELECT 90) AS n10
CROSS JOIN (SELECT 0 AS n UNION SELECT 100 UNION SELECT 200 UNION SELECT 300 UNION SELECT 400 UNION SELECT 500 UNION SELECT 600 UNION SELECT 700 UNION SELECT 800 UNION SELECT 900) AS n100
CROSS JOIN (SELECT 0 AS n UNION SELECT 1000 UNION SELECT 2000 UNION SELECT 3000) AS n1000
) AS Sequence
WHERE
n BETWEEN 1 AND Len( @InitCap )
AND SubString( @InitCap, n, 1 ) LIKE '[a-z]' /* this character is a letter */
AND (
n = 1 /* this character is the first `character` */
OR SubString( @InitCap, n-1, 1 ) LIKE '[^a-z]' /* the previous character is NOT a letter */
)
AND (
n < 3 /* only test the 3rd or greater characters for this exception */
OR SubString( @InitCap, n-2, 3 ) NOT LIKE '[a-z]''[a-z]' /* exception: The pattern <letter>'<letter> should not capatolize the letter following the apostrophy */
)
-- 3. Return the modified version of the input
RETURN @InitCap
END
Tendría sentido mantener una búsqueda de excepciones para cuidar de The von Neumann's, McCain's, DeGuzman's y Johnson-Smith's.
Creo que encontrarás lo siguiente más eficiente:
IF OBJECT_ID('dbo.ProperCase') IS NOT NULL
DROP FUNCTION dbo.ProperCase
GO
CREATE FUNCTION dbo.PROPERCASE (
@str VARCHAR(8000))
RETURNS VARCHAR(8000)
AS
BEGIN
SET @str = ' ' + @str
SET @str = REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE( @str, ' a', ' A'), ' b', ' B'), ' c', ' C'), ' d', ' D'), ' e', ' E'), ' f', ' F'), ' g', ' G'), ' h', ' H'), ' i', ' I'), ' j', ' J'), ' k', ' K'), ' l', ' L'), ' m', ' M'), ' n', ' N'), ' o', ' O'), ' p', ' P'), ' q', ' Q'), ' r', ' R'), ' s', ' S'), ' t', ' T'), ' u', ' U'), ' v', ' V'), ' w', ' W'), ' x', ' X'), ' y', ' Y'), ' z', ' Z')
RETURN RIGHT(@str, LEN(@str) - 1)
END
GO
La declaración de reemplazo podría cortarse y pegarse directamente en una consulta SQL. Es muy feo, sin embargo, al reemplazar @str con la columna que le interesa, no pagará un precio por un cursor implícito como lo haría con los udfs así publicados. Creo que incluso usar mi UDF es mucho más eficiente.
Ah, y en lugar de generar la declaración de reemplazo a mano, use esto:
-- Code Generator for expression
DECLARE @x INT,
@c CHAR(1),
@sql VARCHAR(8000)
SET @x = 0
SET @sql = '@str' -- actual variable/column you want to replace
WHILE @x < 26
BEGIN
SET @c = CHAR(ASCII('a') + @x)
SET @sql = 'REPLACE(' + @sql + ', '' ' + @c+ ''', '' ' + UPPER(@c) + ''')'
SET @x = @x + 1
END
PRINT @sql
De todos modos depende del número de filas. Ojalá pudieras hacer s / \ b ([a-z]) / uc $ 1 /, pero bueno, trabajamos con las herramientas que tenemos.
NOTA: tendría que usar esto ya que tendría que usarlo como ... SELECCIONE dbo.ProperCase (LOWER (column)) ya que la columna está en mayúscula. En realidad, funciona bastante rápido en mi tabla de 5,000 entradas (ni siquiera un segundo) incluso con la inferior.
En respuesta a la avalancha de comentarios sobre la internacionalización, presento la siguiente implementación que maneja cada carácter ascii confiando solo en la Implementación de SQL Server de superior e inferior. Recuerde, las variables que estamos usando aquí son VARCHAR, lo que significa que solo pueden contener valores ASCII. Para usar más alfabetos internacionales, tienes que usar NVARCHAR. La lógica sería similar, pero necesitaría usar UNICODE y NCHAR en lugar de ASCII Y CHAR y la declaración de reemplazo sería mucho más grande ...
-- Code Generator for expression
DECLARE @x INT,
@c CHAR(1),
@sql VARCHAR(8000),
@count INT
SEt @x = 0
SET @count = 0
SET @sql = '@str' -- actual variable you want to replace
WHILE @x < 256
BEGIN
SET @c = CHAR(@x)
-- Only generate replacement expression for characters where upper and lowercase differ
IF @x = ASCII(LOWER(@c)) AND @x != ASCII(UPPER(@c))
BEGIN
SET @sql = 'REPLACE(' + @sql + ', '' ' + @c+ ''', '' ' + UPPER(@c) + ''')'
SET @count = @count + 1
END
SET @x = @x + 1
END
PRINT @sql
PRINT 'Total characters substituted: ' + CONVERT(VARCHAR(255), @count)
Básicamente, la premisa de mi método es intercambiar la precomputación por eficiencia. La implementación completa de ASCII es la siguiente:
IF OBJECT_ID('dbo.ProperCase') IS NOT NULL
DROP FUNCTION dbo.ProperCase
GO
CREATE FUNCTION dbo.PROPERCASE (
@str VARCHAR(8000))
RETURNS VARCHAR(8000)
AS
BEGIN
SET @str = ' ' + @str
SET @str = REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(@str, ' a', ' A'), ' b', ' B'), ' c', ' C'), ' d', ' D'), ' e', ' E'), ' f', ' F'), ' g', ' G'), ' h', ' H'), ' i', ' I'), ' j', ' J'), ' k', ' K'), ' l', ' L'), ' m', ' M'), ' n', ' N'), ' o', ' O'), ' p', ' P'), ' q', ' Q'), ' r', ' R'), ' s', ' S'), ' t', ' T'), ' u', ' U'), ' v', ' V'), ' w', ' W'), ' x', ' X'), ' y', ' Y'), ' z', ' Z'), ' š', ' Š'), ' œ', ' Œ'), ' ž', ' Ž'), ' à', ' À'), ' á', ' Á'), ' â', ' Â'), ' ã', ' Ã'), ' ä', ' Ä'), ' å', ' Å'), ' æ', ' Æ'), ' ç', ' Ç'), ' è', ' È'), ' é', ' É'), ' ê', ' Ê'), ' ë', ' Ë'), ' ì', ' Ì'), ' í', ' Í'), ' î', ' Î'), ' ï', ' Ï'), ' ð', ' Ð'), ' ñ', ' Ñ'), ' ò', ' Ò'), ' ó', ' Ó'), ' ô', ' Ô'), ' õ', ' Õ'), ' ö', ' Ö'), ' ø', ' Ø'), ' ù', ' Ù'), ' ú', ' Ú'), ' û', ' Û'), ' ü', ' Ü'), ' ý', ' Ý'), ' þ', ' Þ'), ' ÿ', ' Ÿ')
RETURN RIGHT(@str, LEN(@str) - 1)
END
GO
¿Es demasiado tarde para regresar y obtener los datos sin mayúsculas?
Puede que a von Neumann's, McCain's, DeGuzman's y Johnson-Smith's de su base de clientes no les guste el resultado de su procesamiento ...
Además, ¿supongo que esto pretende ser una actualización única de los datos? Puede ser más fácil exportar, filtrar / modificar y volver a importar los nombres corregidos en la base de datos, y luego puede usar enfoques que no sean SQL para la fijación de nombres ...
Aquí hay otra variación que encontré en los foros de SQLTeam.com @ http://www.sqlteam.com/forums/topic.asp?TOPIC_ID= 47718
create FUNCTION PROPERCASE
(
--The string to be converted to proper case
@input varchar(8000)
)
--This function returns the proper case string of varchar type
RETURNS varchar(8000)
AS
BEGIN
IF @input IS NULL
BEGIN
--Just return NULL if input string is NULL
RETURN NULL
END
--Character variable declarations
DECLARE @output varchar(8000)
--Integer variable declarations
DECLARE @ctr int, @len int, @found_at int
--Constant declarations
DECLARE @LOWER_CASE_a int, @LOWER_CASE_z int, @Delimiter char(3), @UPPER_CASE_A int, @UPPER_CASE_Z int
--Variable/Constant initializations
SET @ctr = 1
SET @len = LEN(@input)
SET @output = ''
SET @LOWER_CASE_a = 97
SET @LOWER_CASE_z = 122
SET @Delimiter = ' ,-'
SET @UPPER_CASE_A = 65
SET @UPPER_CASE_Z = 90
WHILE @ctr <= @len
BEGIN
--This loop will take care of reccuring white spaces
WHILE CHARINDEX(SUBSTRING(@input,@ctr,1), @Delimiter) > 0
BEGIN
SET @output = @output + SUBSTRING(@input,@ctr,1)
SET @ctr = @ctr + 1
END
IF ASCII(SUBSTRING(@input,@ctr,1)) BETWEEN @LOWER_CASE_a AND @LOWER_CASE_z
BEGIN
--Converting the first character to upper case
SET @output = @output + UPPER(SUBSTRING(@input,@ctr,1))
END
ELSE
BEGIN
SET @output = @output + SUBSTRING(@input,@ctr,1)
END
SET @ctr = @ctr + 1
WHILE CHARINDEX(SUBSTRING(@input,@ctr,1), @Delimiter) = 0 AND (@ctr <= @len)
BEGIN
IF ASCII(SUBSTRING(@input,@ctr,1)) BETWEEN @UPPER_CASE_A AND @UPPER_CASE_Z
BEGIN
SET @output = @output + LOWER(SUBSTRING(@input,@ctr,1))
END
ELSE
BEGIN
SET @output = @output + SUBSTRING(@input,@ctr,1)
END
SET @ctr = @ctr + 1
END
END
RETURN @output
END
GO
SET QUOTED_IDENTIFIER OFF
GO
SET ANSI_NULLS ON
GO
Sé que el diablo está en los detalles (especialmente en lo que respecta a los datos personales de las personas), y que sería muy bueno tener nombres en mayúsculas, pero el problema anterior es la razón por la cual los pragmáticos, conscientes del tiempo usa lo siguiente:
SELECCIONAR SUPERIOR ('Poner YoUR O'So casado de forma extraña McWeird-nAme von right AQUÍ')
En mi experiencia, la gente está bien viendo SU NOMBRE ... incluso cuando está a mitad de una oración.
Consulte: ¡los rusos usaron un lápiz!
Acabo de aprender sobre InitCap ()
.
Aquí hay un código de muestra:
SELECT ID
,InitCap(LastName ||', '|| FirstName ||' '|| Nvl(MiddleName,'')) AS RecipientName
FROM SomeTable
Esto funcionó en SSMS:
Select Jobtitle,
concat(Upper(LEFT(jobtitle,1)), SUBSTRING(jobtitle,2,LEN(jobtitle))) as Propercase
From [HumanResources].[Employee]
Se prestó y mejoró en la respuesta de @Richard Sayakanit. Esto maneja múltiples palabras. Al igual que su respuesta, esto no utiliza ningún UDF, solo funciones integradas ( STRING_SPLIT
y STRING_AGG
) y es bastante rápido. STRING_AGG
requiere SQL Server 2017 pero siempre puede usar el truco STUFF / XML
. No manejará todas las excepciones, pero puede funcionar muy bien para muchos requisitos.
SELECT StateName = 'North Carolina'
INTO #States
UNION ALL
SELECT 'Texas'
;WITH cteData AS
(
SELECT
UPPER(LEFT(value, 1)) +
LOWER(RIGHT(value, LEN(value) - 1)) value, op.StateName
FROM #States op
CROSS APPLY STRING_SPLIT(op.StateName, ' ') AS ss
)
SELECT
STRING_AGG(value, ' ')
FROM cteData c
GROUP BY StateName
Si sabe que todos los datos son solo una palabra, aquí hay una solución. Primero actualice la columna a todas las inferiores y luego ejecute lo siguiente
update tableName set columnName =
upper(SUBSTRING(columnName, 1, 1)) + substring(columnName, 2, len(columnName)) from tableName
Una ligera modificación en la respuesta de @Galwegian - que gira, por ejemplo, St Elizabeth's
en St Elizabeth'S
.
Esta modificación mantiene las apóstrofes-s en minúsculas, donde las s vienen al final de la cadena proporcionada o a las s le sigue un espacio (y solo en esas circunstancias).
create function properCase(@text as varchar(8000))
returns varchar(8000)
as
begin
declare @reset int;
declare @ret varchar(8000);
declare @i int;
declare @c char(1);
declare @d char(1);
if @text is null
return null;
select @reset = 1, @i = 1, @ret = '';
while (@i <= len(@text))
select
@c = substring(@text, @i, 1),
@d = substring(@text, @i+1, 1),
@ret = @ret + case when @reset = 1 or (@reset=-1 and @c!='s') or (@reset=-1 and @c='s' and @d!=' ') then upper(@c) else lower(@c) end,
@reset = case when @c like '[a-za-z]' then 0 when @c='''' then -1 else 1 end,
@i = @i + 1
return @ret
end
Gira:
-
st elizabeth's
enSt Elizabeth's
-
o'keefe
enO'Keefe
-
o'sullivan
enO'Sullivan
Los comentarios de otros de que las diferentes soluciones son preferibles para la entrada en un idioma distinto al inglés siguen siendo el caso.