Qual è il modo migliore per ottenere gli ID delle righe per percentile per BigQuery?

https://stackoverflow.com//questions/22060430

google-bigquery

23-12-2019
|

Domanda

Sto lavorando con il set di dati pubblici di Wikipedia in BigQuery.Sto cercando di trovare gli ID degli articoli Wikipedia con il conteggio dei caratteri classificato nel 75 °, 80 °, 85 ° e 90 ° percentile.

Ora sono a conoscenza della funzione quantili che restituisce i quantili, ma come posso recuperare tutti gli ID?

Soluzione

Che ne dici di:

SELECT a.id 
FROM [publicdata:samples.wikipedia] a
CROSS JOIN (
 SELECT NTH(75, QUANTILES(num_characters, 100)) amin, NTH(76, QUANTILES(num_characters, 100)) amax
 FROM [publicdata:samples.wikipedia]) b
WHERE a.num_characters > b.amin AND a.num_characters < b.amax;

Cosa stai facendo con gli ID nel 76 °, 86 °, ecc., Percentrili?Dovresti essere in grado di adattare la query precedente a seconda delle tue esigenze esatte.

(Per ulteriori efficienza dovresti estrarre i risultati delle query quantilili in una nuova tabella invece di calcolarla ogni volta che le query verranno eseguite più veloci e più economiche)

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow