SQL, tabla auxiliar de números
-
08-06-2019 - |
Pregunta
Para ciertos tipos de consultas SQL, una tabla auxiliar de números puede resultar muy útil.Puede crearse como una tabla con tantas filas como necesite para una tarea particular o como una función definida por el usuario que devuelve el número de filas requeridas en cada consulta.
¿Cuál es la forma óptima de crear dicha función?
Solución
Je...Perdón por tardar tanto en responder a una publicación antigua.Y sí, tuve que responder porque la respuesta más popular (en ese momento, la respuesta CTE recursiva con el enlace a 14 métodos diferentes) en este hilo es, ummm...rendimiento desafiado en el mejor de los casos.
Primero, el artículo con las 14 soluciones diferentes está bien para ver los diferentes métodos de crear una tabla de Números/Conteo sobre la marcha, pero como se señala en el artículo y en el hilo citado, hay una muy cita importante...
"Las sugerencias con respecto a la eficiencia y el rendimiento son a menudo subjetivas.Independientemente de cómo se utilice una consulta, la implementación física determina la eficiencia de una consulta.Por lo tanto, en lugar de confiar en pautas sesgadas, es imperativo que pruebe la consulta y determine cuál funciona mejor ".
Irónicamente, el artículo en sí contiene muchas declaraciones subjetivas y "directrices sesgadas", como "un CTE recursivo puede generar un listado de números bastante eficientemente" y "Esto es un método eficiente del uso del bucle WHILE de una publicación en un grupo de noticias de Itzik Ben-Gen" (que estoy seguro que publicó sólo para fines de comparación).Vamos gente...Sólo mencionar el buen nombre de Itzik puede llevar a algún pobre vago a utilizar ese horrible método.El autor debería practicar lo que predica y debería hacer algunas pruebas de rendimiento antes de hacer declaraciones tan ridículamente incorrectas, especialmente ante cualquier escalabilidad.
Con la idea de hacer algunas pruebas antes de hacer afirmaciones subjetivas sobre lo que hace cualquier código o lo que "le gusta" a alguien, aquí tienes un código con el que puedes hacer tus propias pruebas.Configure el generador de perfiles para el SPID desde el que está ejecutando la prueba y compruébelo usted mismo...simplemente haga una "Buscar y Reemplazar" del número 1000000 para su número "favorito" y ver...
--===== Test for 1000000 rows ==================================
GO
--===== Traditional RECURSIVE CTE method
WITH Tally (N) AS
(
SELECT 1 UNION ALL
SELECT 1 + N FROM Tally WHERE N < 1000000
)
SELECT N
INTO #Tally1
FROM Tally
OPTION (MAXRECURSION 0);
GO
--===== Traditional WHILE LOOP method
CREATE TABLE #Tally2 (N INT);
SET NOCOUNT ON;
DECLARE @Index INT;
SET @Index = 1;
WHILE @Index <= 1000000
BEGIN
INSERT #Tally2 (N)
VALUES (@Index);
SET @Index = @Index + 1;
END;
GO
--===== Traditional CROSS JOIN table method
SELECT TOP (1000000)
ROW_NUMBER() OVER (ORDER BY (SELECT 1)) AS N
INTO #Tally3
FROM Master.sys.All_Columns ac1
CROSS JOIN Master.sys.ALL_Columns ac2;
GO
--===== Itzik's CROSS JOINED CTE method
WITH E00(N) AS (SELECT 1 UNION ALL SELECT 1),
E02(N) AS (SELECT 1 FROM E00 a, E00 b),
E04(N) AS (SELECT 1 FROM E02 a, E02 b),
E08(N) AS (SELECT 1 FROM E04 a, E04 b),
E16(N) AS (SELECT 1 FROM E08 a, E08 b),
E32(N) AS (SELECT 1 FROM E16 a, E16 b),
cteTally(N) AS (SELECT ROW_NUMBER() OVER (ORDER BY N) FROM E32)
SELECT N
INTO #Tally4
FROM cteTally
WHERE N <= 1000000;
GO
--===== Housekeeping
DROP TABLE #Tally1, #Tally2, #Tally3, #Tally4;
GO
Mientras estamos en esto, aquí están los números que obtengo de SQL Profiler para los valores de 100, 1000, 10000, 100000 y 1000000...
SPID TextData Dur(ms) CPU Reads Writes
---- ---------------------------------------- ------- ----- ------- ------
51 --===== Test for 100 rows ============== 8 0 0 0
51 --===== Traditional RECURSIVE CTE method 16 0 868 0
51 --===== Traditional WHILE LOOP method CR 73 16 175 2
51 --===== Traditional CROSS JOIN table met 11 0 80 0
51 --===== Itzik's CROSS JOINED CTE method 6 0 63 0
51 --===== Housekeeping DROP TABLE #Tally 35 31 401 0
51 --===== Test for 1000 rows ============= 0 0 0 0
51 --===== Traditional RECURSIVE CTE method 47 47 8074 0
51 --===== Traditional WHILE LOOP method CR 80 78 1085 0
51 --===== Traditional CROSS JOIN table met 5 0 98 0
51 --===== Itzik's CROSS JOINED CTE method 2 0 83 0
51 --===== Housekeeping DROP TABLE #Tally 6 15 426 0
51 --===== Test for 10000 rows ============ 0 0 0 0
51 --===== Traditional RECURSIVE CTE method 434 344 80230 10
51 --===== Traditional WHILE LOOP method CR 671 563 10240 9
51 --===== Traditional CROSS JOIN table met 25 31 302 15
51 --===== Itzik's CROSS JOINED CTE method 24 0 192 15
51 --===== Housekeeping DROP TABLE #Tally 7 15 531 0
51 --===== Test for 100000 rows =========== 0 0 0 0
51 --===== Traditional RECURSIVE CTE method 4143 3813 800260 154
51 --===== Traditional WHILE LOOP method CR 5820 5547 101380 161
51 --===== Traditional CROSS JOIN table met 160 140 479 211
51 --===== Itzik's CROSS JOINED CTE method 153 141 276 204
51 --===== Housekeeping DROP TABLE #Tally 10 15 761 0
51 --===== Test for 1000000 rows ========== 0 0 0 0
51 --===== Traditional RECURSIVE CTE method 41349 37437 8001048 1601
51 --===== Traditional WHILE LOOP method CR 59138 56141 1012785 1682
51 --===== Traditional CROSS JOIN table met 1224 1219 2429 2101
51 --===== Itzik's CROSS JOINED CTE method 1448 1328 1217 2095
51 --===== Housekeeping DROP TABLE #Tally 8 0 415 0
Como se puede ver, El método CTE recursivo es el segundo peor después del bucle While en duración y CPU y tiene 8 veces más presión de memoria en forma de lecturas lógicas que el bucle While..Es RBAR con esteroides y debe evitarse, a toda costa, para cualquier cálculo de una sola fila, al igual que se debe evitar un bucle While. Hay lugares donde la recursividad es bastante valiosa, pero este NO ES uno de ellos..
Como barra lateral, el Sr.Denny es absolutamente acertado...una tabla de números o de conteo permanente del tamaño correcto es el camino a seguir para la mayoría de las cosas.¿Qué significa tener el tamaño correcto?Bueno, la mayoría de la gente usa una tabla Tally para generar fechas o hacer divisiones en VARCHAR(8000).Si crea una tabla Tally de 11.000 filas con el índice agrupado correcto en "N", tendrá suficientes filas para crear más de 30 años de fechas (trabajo bastante con hipotecas, por lo que 30 años es un número clave para mí ) y ciertamente suficiente para manejar una división VARCHAR(8000).¿Por qué es tan importante el "tamaño correcto"?Si la tabla Tally se usa mucho, cabe fácilmente en el caché, lo que la hace increíblemente rápida sin mucha presión sobre la memoria.
Por último, pero no menos importante, todos saben que si creas una tabla Tally permanente, no importa mucho qué método uses para construirla porque 1) solo se creará una vez y 2) si es algo así como una fila de 11,000. tabla, todos los métodos se ejecutarán "suficientemente bien". Entonces, ¿por qué toda la indignación de mi parte sobre qué método usar?
La respuesta es que algún pobre chico/chica que no sabe nada mejor y sólo necesita hacer su trabajo podría ver algo como el método CTE recursivo y decidir usarlo para algo mucho más grande y usado con mucha más frecuencia que construir. una mesa Tally permanente y estoy tratando de proteger a esas personas, los servidores en los que se ejecuta su código y a la empresa propietaria de los datos en esos servidores.Sí...es un gran problema.También debería serlo para todos los demás.Enseñe la forma correcta de hacer las cosas en lugar de "suficientemente bien".Haga algunas pruebas antes de publicar o usar algo de una publicación o libro...De hecho, la vida que salves puede ser la tuya, especialmente si crees que un CTE recursivo es el camino a seguir para algo como esto.;-)
Gracias por su atención...
Otros consejos
La función más óptima sería utilizar una tabla en lugar de una función.El uso de una función provoca una carga adicional de la CPU para crear los valores para los datos que se devuelven, especialmente si los valores que se devuelven cubren un rango muy grande.
Este artículo Ofrece 14 soluciones posibles diferentes con una discusión de cada una.El punto importante es que:
Las sugerencias con respecto a la eficiencia y el rendimiento son a menudo subjetivas.Independientemente de cómo se utilice una consulta, la implementación física determina la eficiencia de una consulta.Por lo tanto, en lugar de confiar en pautas sesgadas, es imperativo que pruebe la consulta y determine cuál funciona mejor.
A mi personalmente me gustó:
WITH Nbrs ( n ) AS (
SELECT 1 UNION ALL
SELECT 1 + n FROM Nbrs WHERE n < 500 )
SELECT n FROM Nbrs
OPTION ( MAXRECURSION 500 )
Esta vista es súper rápida y contiene todos los aspectos positivos. int
valores.
CREATE VIEW dbo.Numbers
WITH SCHEMABINDING
AS
WITH Int1(z) AS (SELECT 0 UNION ALL SELECT 0)
, Int2(z) AS (SELECT 0 FROM Int1 a CROSS JOIN Int1 b)
, Int4(z) AS (SELECT 0 FROM Int2 a CROSS JOIN Int2 b)
, Int8(z) AS (SELECT 0 FROM Int4 a CROSS JOIN Int4 b)
, Int16(z) AS (SELECT 0 FROM Int8 a CROSS JOIN Int8 b)
, Int32(z) AS (SELECT TOP 2147483647 0 FROM Int16 a CROSS JOIN Int16 b)
SELECT ROW_NUMBER() OVER (ORDER BY z) AS n
FROM Int32
GO
Usando SQL Server 2016+
para generar una tabla de números que podrías usar OPENJSON
:
-- range from 0 to @max - 1
DECLARE @max INT = 40000;
SELECT rn = CAST([key] AS INT)
FROM OPENJSON(CONCAT('[1', REPLICATE(CAST(',1' AS VARCHAR(MAX)),@max-1),']'));
idea tomada de ¿Cómo podemos usar OPENJSON para generar series de números?
editar:vea el comentario de Conrad a continuación.
La respuesta de Jeff Moden es genial...pero encuentro en Postgres que el método Itzik falla a menos que elimines la fila E32.
Un poco más rápido en Postgres (40 ms frente a 100 ms) es otro método que encontré en aquí adaptado para postgres:
WITH
E00 (N) AS (
SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL
SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 ),
E01 (N) AS (SELECT a.N FROM E00 a CROSS JOIN E00 b),
E02 (N) AS (SELECT a.N FROM E01 a CROSS JOIN E01 b ),
E03 (N) AS (SELECT a.N FROM E02 a CROSS JOIN E02 b
LIMIT 11000 -- end record 11,000 good for 30 yrs dates
), -- max is 100,000,000, starts slowing e.g. 1 million 1.5 secs, 2 mil 2.5 secs, 3 mill 4 secs
Tally (N) as (SELECT row_number() OVER (ORDER BY a.N) FROM E03 a)
SELECT N
FROM Tally
A medida que me muevo de SQL Server al mundo de Postgres, es posible que me haya perdido una mejor manera de hacer tablas de conteo en esa plataforma...ENTERO()?SECUENCIA()?
Aún mucho más tarde, me gustaría contribuir con un CTE 'tradicional' ligeramente diferente (no toca las tablas base para obtener el volumen de filas):
--===== Hans CROSS JOINED CTE method
WITH Numbers_CTE (Digit)
AS
(SELECT 0 UNION ALL SELECT 1 UNION ALL SELECT 2 UNION ALL SELECT 3 UNION ALL SELECT 4 UNION ALL SELECT 5 UNION ALL SELECT 6 UNION ALL SELECT 7 UNION ALL SELECT 8 UNION ALL SELECT 9)
SELECT HundredThousand.Digit * 100000 + TenThousand.Digit * 10000 + Thousand.Digit * 1000 + Hundred.Digit * 100 + Ten.Digit * 10 + One.Digit AS Number
INTO #Tally5
FROM Numbers_CTE AS One CROSS JOIN Numbers_CTE AS Ten CROSS JOIN Numbers_CTE AS Hundred CROSS JOIN Numbers_CTE AS Thousand CROSS JOIN Numbers_CTE AS TenThousand CROSS JOIN Numbers_CTE AS HundredThousand
Este CTE realiza más READ que el CTE de Itzik pero menos que el CTE tradicional.Sin embargo, realiza constantemente menos ESCRITURAS que las otras consultas.Como usted sabe, las escrituras son consistentemente mucho más caras que las lecturas.
La duración depende en gran medida de la cantidad de núcleos (MAXDOP) pero, en mi 8core, funciona consistentemente más rápido (menos duración en ms) que las otras consultas.
Estoy usando:
Microsoft SQL Server 2012 - 11.0.5058.0 (X64)
May 14 2014 18:34:29
Copyright (c) Microsoft Corporation
Enterprise Edition (64-bit) on Windows NT 6.3 <X64> (Build 9600: )
en Windows Server 2012 R2, 32 GB, Xeon X3450 @2.67Ghz, 4 núcleos HT habilitados.