Qual è il modo migliore per ottenere gli ID delle righe per percentile per BigQuery?
-
23-12-2019 - |
Domanda
Sto lavorando con il set di dati pubblici di Wikipedia in BigQuery.Sto cercando di trovare gli ID degli articoli Wikipedia con il conteggio dei caratteri classificato nel 75 °, 80 °, 85 ° e 90 ° percentile.
Ora sono a conoscenza della funzione quantili che restituisce i quantili, ma come posso recuperare tutti gli ID?
Soluzione
Che ne dici di:
SELECT a.id
FROM [publicdata:samples.wikipedia] a
CROSS JOIN (
SELECT NTH(75, QUANTILES(num_characters, 100)) amin, NTH(76, QUANTILES(num_characters, 100)) amax
FROM [publicdata:samples.wikipedia]) b
WHERE a.num_characters > b.amin AND a.num_characters < b.amax;
.
Cosa stai facendo con gli ID nel 76 °, 86 °, ecc., Percentrili?Dovresti essere in grado di adattare la query precedente a seconda delle tue esigenze esatte.
(Per ulteriori efficienza dovresti estrarre i risultati delle query quantilili in una nuova tabella invece di calcolarla ogni volta che le query verranno eseguite più veloci e più economiche)
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow