SQL Server: Définir tous les arguments UPPER en cas correct / titre

https://stackoverflow.com/questions/230138

04-07-2019
|

Question

J'ai une table qui a été importée en tant que toute MAJUSCULE et je voudrais la transformer en casse appropriée. Quel script avez-vous utilisé pour compléter ceci?

La solution

Voici un fichier UDF qui fera l'affaire ...

create function ProperCase(@Text as varchar(8000))
returns varchar(8000)
as
begin
  declare @Reset bit;
  declare @Ret varchar(8000);
  declare @i int;
  declare @c char(1);

  if @Text is null
    return null;

  select @Reset = 1, @i = 1, @Ret = '';

  while (@i <= len(@Text))
    select @c = substring(@Text, @i, 1),
      @Ret = @Ret + case when @Reset = 1 then UPPER(@c) else LOWER(@c) end,
      @Reset = case when @c like '[a-zA-Z]' then 0 else 1 end,
      @i = @i + 1
  return @Ret
end

Vous devrez quand même l'utiliser pour mettre à jour vos données.

Autres conseils

Cette fonction:

" Cas appropriés " tous " UPPER CASE " mots délimités par un espace
laisse " mots minuscules " seul
fonctionne correctement même pour les alphabets non anglais
est portable en ce sens qu’il n’utilise pas les fonctionnalités sophistiquées des versions récentes du serveur SQL
peut être facilement modifié pour utiliser NCHAR et NVARCHAR pour la prise en charge de l’unicode, ainsi que pour toute longueur de paramètre qui vous convient
la définition d'espace blanc peut être configurée

CREATE FUNCTION ToProperCase(@string VARCHAR(255)) RETURNS VARCHAR(255)
AS
BEGIN
  DECLARE @i INT           -- index
  DECLARE @l INT           -- input length
  DECLARE @c NCHAR(1)      -- current char
  DECLARE @f INT           -- first letter flag (1/0)
  DECLARE @o VARCHAR(255)  -- output string
  DECLARE @w VARCHAR(10)   -- characters considered as white space

  SET @w = '[' + CHAR(13) + CHAR(10) + CHAR(9) + CHAR(160) + ' ' + ']'
  SET @i = 1
  SET @l = LEN(@string)
  SET @f = 1
  SET @o = ''

  WHILE @i <= @l
  BEGIN
    SET @c = SUBSTRING(@string, @i, 1)
    IF @f = 1 
    BEGIN
     SET @o = @o + @c
     SET @f = 0
    END
    ELSE
    BEGIN
     SET @o = @o + LOWER(@c)
    END

    IF @c LIKE @w SET @f = 1

    SET @i = @i + 1
  END

  RETURN @o
END

Résultat:

dbo.ToProperCase('ALL UPPER CASE and    SOME lower ÄÄ ÖÖ ÜÜ ÉÉ ØØ ĈĈ ÆÆ')
-----------------------------------------------------------------
All Upper Case and      Some lower Ää Öö Üü Éé Øø Cc Ææ

UPDATE titles
  SET title =
      UPPER(LEFT(title, 1)) +
        LOWER(RIGHT(title, LEN(title) - 1))

http://sqlmag.com/t-sql/how- title-case-column-value

Si vous pouvez activer le CLR dans SQL Server (requiert 2005 ou une version ultérieure), vous pouvez créer une fonction CLR qui utilise la Fonction intégrée TextInfo.ToTitleCase qui vous permettrait de créer un moyen de le faire tenant compte de la culture, en quelques lignes de code seulement.

Je suis un peu en retard dans le jeu, mais je pense que cela est plus fonctionnel et que cela fonctionne avec toutes les langues, y compris le russe, l'allemand, le thaï, le vietnamien, etc. Il fera n'importe quoi en majuscule après 'ou - ou. ou (ou) ou l'espace (évidemment:).

CREATE FUNCTION [dbo].[fnToProperCase]( @name nvarchar(500) )
RETURNS nvarchar(500)
AS
BEGIN
declare @pos    int = 1
      , @pos2   int

if (@name <> '')--or @name = lower(@name) collate SQL_Latin1_General_CP1_CS_AS or @name = upper(@name) collate SQL_Latin1_General_CP1_CS_AS)
begin
    set @name = lower(rtrim(@name))
    while (1 = 1)
    begin
        set @name = stuff(@name, @pos, 1, upper(substring(@name, @pos, 1)))
        set @pos2 = patindex('%[- ''.)(]%', substring(@name, @pos, 500))
        set @pos += @pos2
        if (isnull(@pos2, 0) = 0 or @pos > len(@name))
            break
    end
end

return @name
END
GO

Je sais que ce post est en retard dans ce fil de discussion, mais vaut la peine Cette fonction fonctionne pour moi à tout moment. Alors pensé à le partager.

CREATE FUNCTION [dbo].[fnConvert_TitleCase] (@InputString VARCHAR(4000) )
RETURNS VARCHAR(4000)
AS
BEGIN
DECLARE @Index INT
DECLARE @Char CHAR(1)
DECLARE @OutputString VARCHAR(255)

SET @OutputString = LOWER(@InputString)
SET @Index = 2
SET @OutputString = STUFF(@OutputString, 1, 1,UPPER(SUBSTRING(@InputString,1,1)))

WHILE @Index <= LEN(@InputString)
BEGIN
    SET @Char = SUBSTRING(@InputString, @Index, 1)
    IF @Char IN (' ', ';', ':', '!', '?', ',', '.', '_', '-', '/', '&','''','(')
    IF @Index + 1 <= LEN(@InputString)
BEGIN
    IF @Char != ''''
    OR
    UPPER(SUBSTRING(@InputString, @Index + 1, 1)) != 'S'
    SET @OutputString =
    STUFF(@OutputString, @Index + 1, 1,UPPER(SUBSTRING(@InputString, @Index + 1, 1)))
END
    SET @Index = @Index + 1
END

RETURN ISNULL(@OutputString,'')
END

Test des appels:

select dbo.fnConvert_TitleCase(Upper('ÄÄ ÖÖ ÜÜ ÉÉ ØØ ĈĈ ÆÆ')) as test
select dbo.fnConvert_TitleCase(upper('Whatever the mind of man can conceive and believe, it can achieve. – Napoleon hill')) as test

Résultats:

entrer la description de l'image ici

Si vous importez dans SSIS des données mélangées et que vous devez effectuer une recherche sur une colonne avec la casse appropriée, vous remarquerez que la recherche échoue lorsque la source est mélangée et que la source de recherche est correcte. Vous remarquerez également que vous ne pouvez pas utiliser les fonctions droite et gauche, SSIS pour SQL Server 2008r2 pour les colonnes dérivées. Voici une solution qui fonctionne pour moi:

UPPER(substring(input_column_name,1,1)) + LOWER(substring(input_column_name, 2, len(input_column_name)-1))

Le lien que j'ai posté ci-dessus est une excellente option qui résout le problème principal: nous ne pouvons jamais comptabiliser tous les cas par programme (Smith-Jones, von Haussen, John Smith M.D.), du moins pas de manière élégante. Tony introduit le concept d'un caractère d'exception / pause pour traiter ces cas. Quoi qu’il en soit, en s’appuyant sur l’idée de Cervo (majuscules et minuscules précédés par un espace), les instructions de remplacement pourraient être regroupées dans une seule table basée sur remplacer. En réalité, toute combinaison de caractères bas / haut peut être insérée dans @alpha et l'instruction ne changera pas:

declare @str    nvarchar(8000)
declare @alpha  table (low nchar(1), up nchar(1))


set @str = 'ALL UPPER CASE and    SOME lower ÄÄ ÖÖ ÜÜ ÉÉ ØØ ĈĈ ÆÆ'

-- stage the alpha (needs number table)
insert into @alpha
    -- A-Z / a-z
    select      nchar(n+32),
                nchar(n)
    from        dbo.Number
    where       n between 65 and 90 or
                n between 192 and 223

-- append space at start of str
set @str = lower(' ' + @str)

-- upper all lower case chars preceded by space
select  @str = replace(@str, ' ' + low, ' ' + up) 
from    @Alpha

select @str

Voici une version qui utilise une séquence ou un tableau de nombres plutôt qu'une boucle. Vous pouvez modifier la clause WHERE pour s’adapter à vos règles personnelles pour le moment de convertir un caractère en majuscule. Je viens d'inclure un ensemble simple qui met en majuscule toute lettre précédée d'une non-lettre, à l'exception des apostrophes. Cela signifie cependant que 123apple aurait une correspondance sur le signe "a" parce que " 3 " n'est pas une lettre. Si vous voulez juste un espace (espace, tabulation, retour chariot, saut de ligne), vous pouvez remplacer le motif '[^ az]' par '[' + 'Char (32 ) + Char (9) + Char (13) + Char (10) + ']' .

CREATE FUNCTION String.InitCap( @string nvarchar(4000) ) RETURNS nvarchar(4000) AS
BEGIN

-- 1. Convert all letters to lower case
    DECLARE @InitCap nvarchar(4000); SET @InitCap = Lower(@string);

-- 2. Using a Sequence, replace the letters that should be upper case with their upper case version
    SELECT @InitCap = Stuff( @InitCap, n, 1, Upper( SubString( @InitCap, n, 1 ) ) )
    FROM (
        SELECT (1 + n1.n + n10.n + n100.n + n1000.n) AS n
        FROM       (SELECT 0 AS n UNION SELECT    1 UNION SELECT    2 UNION SELECT    3 UNION SELECT    4 UNION SELECT    5 UNION SELECT    6 UNION SELECT    7 UNION SELECT    8 UNION SELECT    9) AS    n1
        CROSS JOIN (SELECT 0 AS n UNION SELECT   10 UNION SELECT   20 UNION SELECT   30 UNION SELECT   40 UNION SELECT   50 UNION SELECT   60 UNION SELECT   70 UNION SELECT   80 UNION SELECT   90) AS   n10
        CROSS JOIN (SELECT 0 AS n UNION SELECT  100 UNION SELECT  200 UNION SELECT  300 UNION SELECT  400 UNION SELECT  500 UNION SELECT  600 UNION SELECT  700 UNION SELECT  800 UNION SELECT  900) AS  n100
        CROSS JOIN (SELECT 0 AS n UNION SELECT 1000 UNION SELECT 2000 UNION SELECT 3000)                                                                                                             AS n1000
        ) AS Sequence
    WHERE 
        n BETWEEN 1 AND Len( @InitCap )
    AND SubString( @InitCap, n, 1 ) LIKE '[a-z]'                 /* this character is a letter */
    AND (
        n = 1                                                    /* this character is the first `character` */
        OR SubString( @InitCap, n-1, 1 ) LIKE '[^a-z]'           /* the previous character is NOT a letter */
        )
    AND (
        n < 3                                                    /* only test the 3rd or greater characters for this exception */
        OR SubString( @InitCap, n-2, 3 ) NOT LIKE '[a-z]''[a-z]' /* exception: The pattern <letter>'<letter> should not capatolize the letter following the apostrophy */
        )

-- 3. Return the modified version of the input
    RETURN @InitCap

END

Il serait logique de conserver une recherche des exceptions pour prendre en charge les dossiers de von Neumann, McCain, DeGuzman et Johnson-Smith.

Je pense que vous constaterez que ce qui suit est plus efficace:

IF OBJECT_ID('dbo.ProperCase') IS NOT NULL
    DROP FUNCTION dbo.ProperCase
GO
CREATE FUNCTION dbo.PROPERCASE (
    @str VARCHAR(8000))
RETURNS VARCHAR(8000)
AS
BEGIN
    SET @str = ' ' + @str
    SET @str = REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE( @str, ' a', ' A'), ' b', ' B'), ' c', ' C'), ' d', ' D'), ' e', ' E'), ' f', ' F'), ' g', ' G'), ' h', ' H'), ' i', ' I'), ' j', ' J'), ' k', ' K'), ' l', ' L'), ' m', ' M'), ' n', ' N'), ' o', ' O'), ' p', ' P'), ' q', ' Q'), ' r', ' R'), ' s', ' S'), ' t', ' T'), ' u', ' U'), ' v', ' V'), ' w', ' W'), ' x', ' X'), ' y', ' Y'), ' z', ' Z')
    RETURN RIGHT(@str, LEN(@str) - 1)
END
GO

L’instruction de remplacement peut être coupée et collée directement dans une requête SQL. C'est ultra laid, mais en remplaçant @str par la colonne qui vous intéresse, vous ne paierez pas le prix d'un curseur implicite comme vous le feriez avec les udfs ainsi postés. Je trouve que même avec mon UDF, il est beaucoup plus efficace.

Oh et au lieu de générer manuellement l'instruction de remplacement, utilisez ceci:

-- Code Generator for expression
DECLARE @x  INT,
    @c  CHAR(1),
    @sql    VARCHAR(8000)
SET @x = 0
SET @sql = '@str' -- actual variable/column you want to replace
WHILE @x < 26
BEGIN
    SET @c = CHAR(ASCII('a') + @x)
    SET @sql = 'REPLACE(' + @sql + ', '' ' + @c+  ''', '' ' + UPPER(@c) + ''')'
    SET @x = @x + 1
END
PRINT @sql

Quoi qu'il en soit, cela dépend du nombre de lignes. J'aimerais que vous puissiez simplement faire s / \ b ([a-z]) / uc $ 1 /, mais bon, nous travaillons avec les outils dont nous disposons.

NOTE: vous devrez utiliser ceci comme vous devriez l’utiliser comme .... SELECT dbo.ProperCase (LOWER (column)) puisque la colonne est en majuscule. Cela fonctionne en fait assez vite sur ma table de 5 000 entrées (pas même une seconde), même avec la plus basse.

En réponse à la vague de commentaires sur l’internationalisation, je présente l’implémentation suivante, qui traite tous les caractères ascii en s’appuyant uniquement sur l’implémentation supérieure et inférieure de SQL Server. N'oubliez pas que les variables que nous utilisons ici sont VARCHAR, ce qui signifie qu'elles ne peuvent contenir que des valeurs ASCII. Pour utiliser d'autres alphabets internationaux, vous devez utiliser NVARCHAR. La logique serait similaire, mais vous auriez besoin d’utiliser UNICODE et NCHAR à la place d’ASCII AND CHAR et la déclaration de remplacement serait bien plus énorme ....

-- Code Generator for expression
DECLARE @x  INT,
    @c  CHAR(1),
    @sql    VARCHAR(8000),
    @count  INT
SEt @x = 0
SET @count = 0
SET @sql = '@str' -- actual variable you want to replace
WHILE @x < 256
BEGIN
    SET @c = CHAR(@x)
    -- Only generate replacement expression for characters where upper and lowercase differ
    IF @x = ASCII(LOWER(@c)) AND @x != ASCII(UPPER(@c))
    BEGIN
        SET @sql = 'REPLACE(' + @sql + ', '' ' + @c+  ''', '' ' + UPPER(@c) + ''')'
        SET @count = @count + 1
    END
    SET @x = @x + 1
END
PRINT @sql
PRINT 'Total characters substituted: ' + CONVERT(VARCHAR(255), @count)

Fondamentalement, la méthode my repose sur le trading pré-informatique pour plus d’efficacité. L’implémentation ASCII complète est la suivante:

IF OBJECT_ID('dbo.ProperCase') IS NOT NULL
    DROP FUNCTION dbo.ProperCase
GO
CREATE FUNCTION dbo.PROPERCASE (
    @str VARCHAR(8000))
RETURNS VARCHAR(8000)
AS
BEGIN
    SET @str = ' ' + @str
SET @str =     REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(@str, ' a', ' A'), ' b', ' B'), ' c', ' C'), ' d', ' D'), ' e', ' E'), ' f', ' F'), ' g', ' G'), ' h', ' H'), ' i', ' I'), ' j', ' J'), ' k', ' K'), ' l', ' L'), ' m', ' M'), ' n', ' N'), ' o', ' O'), ' p', ' P'), ' q', ' Q'), ' r', ' R'), ' s', ' S'), ' t', ' T'), ' u', ' U'), ' v', ' V'), ' w', ' W'), ' x', ' X'), ' y', ' Y'), ' z', ' Z'), ' š', ' Š'), ' œ', ' Œ'), ' ž', ' Ž'), ' à', ' À'), ' á', ' Á'), ' â', ' Â'), ' ã', ' Ã'), ' ä', ' Ä'), ' å', ' Å'), ' æ', ' Æ'), ' ç', ' Ç'), ' è', ' È'), ' é', ' É'), ' ê', ' Ê'), ' ë', ' Ë'), ' ì', ' Ì'), ' í', ' Í'), ' î', ' Î'), ' ï', ' Ï'), ' ð', ' Ð'), ' ñ', ' Ñ'), ' ò', ' Ò'), ' ó', ' Ó'), ' ô', ' Ô'), ' õ', ' Õ'), ' ö', ' Ö'), ' ø', ' Ø'), ' ù', ' Ù'), ' ú', ' Ú'), ' û', ' Û'), ' ü', ' Ü'), ' ý', ' Ý'), ' þ', ' Þ'), ' ÿ', ' Ÿ')
    RETURN RIGHT(@str, LEN(@str) - 1)
END
GO

Est-il trop tard pour récupérer les données non majuscules?

Les clients von Neumann, McCain, DeGuzman et Johnson-Smith de votre clientèle risquent de ne pas aimer le résultat de votre traitement ...

De plus, j'imagine qu'il s'agit d'une mise à niveau ponctuelle des données? Il serait peut-être plus facile d’exporter, filtrer / modifier et réimporter les noms corrigés dans la base de données, puis vous pourrez utiliser des approches non SQL pour la correction de noms ...

Voici une autre variante que j'ai trouvée sur les forums SQLTeam.com @ http://www.sqlteam.com/forums/topic.asp?TOPIC_ID= 47718

create FUNCTION PROPERCASE
(
--The string to be converted to proper case
@input varchar(8000)
)
--This function returns the proper case string of varchar type
RETURNS varchar(8000)
AS
BEGIN
IF @input IS NULL
BEGIN
--Just return NULL if input string is NULL
RETURN NULL
END

--Character variable declarations
DECLARE @output varchar(8000)
--Integer variable declarations
DECLARE @ctr int, @len int, @found_at int
--Constant declarations
DECLARE @LOWER_CASE_a int, @LOWER_CASE_z int, @Delimiter char(3), @UPPER_CASE_A int, @UPPER_CASE_Z int

--Variable/Constant initializations
SET @ctr = 1
SET @len = LEN(@input)
SET @output = ''
SET @LOWER_CASE_a = 97
SET @LOWER_CASE_z = 122
SET @Delimiter = ' ,-'
SET @UPPER_CASE_A = 65
SET @UPPER_CASE_Z = 90

WHILE @ctr <= @len
BEGIN
--This loop will take care of reccuring white spaces
WHILE CHARINDEX(SUBSTRING(@input,@ctr,1), @Delimiter) > 0
BEGIN
SET @output = @output + SUBSTRING(@input,@ctr,1)
SET @ctr = @ctr + 1
END

IF ASCII(SUBSTRING(@input,@ctr,1)) BETWEEN @LOWER_CASE_a AND @LOWER_CASE_z
BEGIN
--Converting the first character to upper case
SET @output = @output + UPPER(SUBSTRING(@input,@ctr,1))
END
ELSE
BEGIN
SET @output = @output + SUBSTRING(@input,@ctr,1)
END

SET @ctr = @ctr + 1

WHILE CHARINDEX(SUBSTRING(@input,@ctr,1), @Delimiter) = 0 AND (@ctr <= @len)
BEGIN
IF ASCII(SUBSTRING(@input,@ctr,1)) BETWEEN @UPPER_CASE_A AND @UPPER_CASE_Z
BEGIN
SET @output = @output + LOWER(SUBSTRING(@input,@ctr,1))
END
ELSE
BEGIN
SET @output = @output + SUBSTRING(@input,@ctr,1)
END
SET @ctr = @ctr + 1
END

END
RETURN @output
END



GO
SET QUOTED_IDENTIFIER OFF
GO
SET ANSI_NULLS ON
GO

Je sais que le diable se cache dans les détails (en particulier en ce qui concerne les données personnelles des personnes), et qu'il serait très agréable d'avoir des noms correctement capitalisés, mais le genre de problème ci-dessus est la raison pour laquelle le pragmatique, conscient du temps qui nous occupe utilisez les éléments suivants:

SELECT UPPER ("Mettez votre O'Os curieusement en cas de McWeird-nAme von rightHERE here")

D'après mon expérience, les gens vont bien voir leur nom ... même à mi-chemin d'une phrase.

Voir: les Russes ont utilisé un crayon!

Je viens juste d'apprendre l'existence de InitCap () .

Voici un exemple de code:

SELECT ID
      ,InitCap(LastName ||', '|| FirstName ||' '|| Nvl(MiddleName,'')) AS RecipientName
FROM SomeTable

Cela a fonctionné dans SSMS:

Select Jobtitle,
concat(Upper(LEFT(jobtitle,1)), SUBSTRING(jobtitle,2,LEN(jobtitle))) as Propercase
From [HumanResources].[Employee]

Emprunté et amélioré sur la réponse de @Richard Sayakanit. Cela gère plusieurs mots. Comme sa réponse, cela n’utilise aucun fichier UDF, seulement des fonctions intégrées ( STRING_SPLIT et STRING_AGG ) et c’est assez rapide. STRING_AGG nécessite SQL Server 2017, mais vous pouvez toujours utiliser l'astuce STUFF / XML . Ne gérera pas toutes les exceptions, mais peut fonctionner efficacement pour de nombreuses exigences

SELECT StateName = 'North Carolina' 
INTO #States
UNION ALL
SELECT 'Texas'


;WITH cteData AS 
(
    SELECT 
        UPPER(LEFT(value, 1)) +
            LOWER(RIGHT(value, LEN(value) - 1)) value, op.StateName
    FROM   #States op
    CROSS APPLY STRING_SPLIT(op.StateName, ' ') AS ss
)
SELECT 
    STRING_AGG(value, ' ')
FROM cteData c 
GROUP BY StateName

Si vous savez que toutes les données ne sont qu’un mot, voici une solution. Commencez par mettre à jour la colonne, puis exécutez la commande suivante

    update tableName set columnName = 
    upper(SUBSTRING(columnName, 1, 1)) + substring(columnName, 2, len(columnName)) from tableName

Une légère modification de la réponse de @ Galwegian - qui tourne par exemple. St Elizabeth's dans St Elizabeth'S .

Cette modification conserve les lettres apostrophe-s en minuscules, où le s vient à la fin de la chaîne fournie ou le s est suivi d'un espace (et uniquement dans ces circonstances).

create function properCase(@text as varchar(8000))
returns varchar(8000)
as
begin
    declare @reset int;
    declare @ret varchar(8000);
    declare @i int;
    declare @c char(1);
    declare @d char(1);

    if @text is null
    return null;

    select @reset = 1, @i = 1, @ret = '';

    while (@i <= len(@text))
    select
        @c = substring(@text, @i, 1),
        @d = substring(@text, @i+1, 1),
        @ret = @ret + case when @reset = 1 or (@reset=-1 and @c!='s') or (@reset=-1 and @c='s' and @d!=' ') then upper(@c) else lower(@c) end,
        @reset = case when @c like '[a-za-z]' then 0 when @c='''' then -1 else 1 end,
        @i = @i + 1
    return @ret
end

Ça tourne:

de sainte elizabeth dans de sainte Elisabeth
o'keefe dans O'Keefe
o'sullivan dans O'Sullivan

Les commentaires d'autres personnes selon lesquelles différentes solutions sont préférables pour une saisie non anglaise restent le cas.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow