Caricamento in corso, elencando, e l'utilizzo di R moduli e funzioni in PL / R

https://stackoverflow.com/questions/2932028

05-10-2019
|

Domanda

Sto avendo difficoltà con:

Listato i pacchetti R e le funzioni disponibili per PostgreSQL.
Installazione di un pacchetto (come Kendall ) per l'utilizzo con PL / R
La chiamata di una funzione di R all'interno di PostgreSQL

Listing pacchetti R disponibili

Q.1. Come si fa a scoprire quali sono stati caricati i moduli R?

SELECT * FROM r_typenames();

che mostra i tipi che sono disponibili, ma per quanto riguarda la verifica se Kendall( X, Y ) è caricato? Ad esempio, il documentazione spettacoli:

CREATE TABLE plr_modules (
  modseq int4,
  modsrc text
);

Questo sembra permettere l'inserimento di record di dettare che Kendall deve essere caricato, ma il seguente codice non spiega, sintatticamente, come garantire che venga caricato:

INSERT INTO plr_modules
  VALUES (0, 'pg.test.module.load <-function(msg) {print(msg)}');

Q.2. Quale sarebbe la linea di guardare dall'alto come se si stesse tentando di caricare Kendall?
Q.3. E 'applicabile?

Installazione R Pacchetti

Utilizzando il gestore di pacchetti "synaptic" sono stati installati i seguenti pacchetti:

r-base
r-base-core
r-base-dev
r-base-html
r-base-latex
r-cran-acepack
r-cran-boot
r-cran-car
r-cran-chron
r-cran-cluster
r-cran-codetools
r-cran-design
r-cran-foreign
r-cran-hmisc
r-cran-kernsmooth
r-cran-lattice
r-cran-matrix
r-cran-mgcv
r-cran-nlme
r-cran-quadprog
r-cran-robustbase
r-cran-rpart
r-cran-survival
r-cran-vr
r-recommended

Q.4. Come faccio a sapere se Kendall è in là?
Q.5. Se non lo è, come faccio a scoprire quale pacchetto è in?
QUADRO 6. Se non è in un pacchetto adatto per l'installazione con apt-get (aptitude, synaptic, dpkg, quello che hai), come posso fare per installarlo su Ubuntu?
Q.7. Dove sono le fasi di installazione documentate?

Richiamo di funzioni R

Ho il seguente codice:

EXECUTE 'SELECT '
  'regr_slope( amount, year_taken ),'
  'regr_intercept( amount, year_taken ),'
  'corr( amount, year_taken ),'
  'sum( measurements ) AS total_measurements '
'FROM temp_regression'
INTO STRICT slope, intercept, correlation, total_measurements;

Questo codice chiama la funzione corr PostgreSQL per calcolare la correlazione di Pearson sui dati. Idealmente, vorrei fare quanto segue (passando per corr plr_kendall):

EXECUTE 'SELECT '
  'regr_slope( amount, year_taken ),'
  'regr_intercept( amount, year_taken ),'
  'plr_kendall( amount, year_taken ),'
  'sum( measurements ) AS total_measurements '
'FROM temp_regression'
INTO STRICT slope, intercept, correlation, total_measurements;

QUADRO 8. Devo plr_kendall scrivere io?
Q.9 Dove posso trovare un semplice di esempio che cammina attraverso:.

Caricare un modulo R in PG.
Scrivi involucro PG per la funzione R desiderata.
Chiamare l'involucro PG da una SELECT.

Per esempio, sarebbero gli ultimi due passaggi simile:

create or replace function plr_kendall( _float8, _float8 ) returns float as '
  agg_kendall(arg1, arg2)
' language 'plr';

CREATE AGGREGATE agg_kendall (
  sfunc = plr_array_accum,
  basetype = float8, -- ???
  stype = _float8, -- ???
  finalfunc = plr_kendall
);

E poi la SELECT come sopra?

Grazie!

Soluzione

Panoramica

list

Questi passaggi come chiamare una funzione di R da PostgreSQL usando PL / R.

Prerequisties

Si deve già avere PostgreSQL, R, e installato PL / R.

Passi

Trova R Nome del modulo (ad esempio, Kendall)
Cambia per l'utente del database: sudo su - postgres
Esegui R R
Installa R Module (accetti $HOME/R/x86_64-pc-linux-gnu-library/2.9/): install.packages("Kendall", dependencies = TRUE)
Scegli un CRAN specchio, quando richiesto.

Creare la seguente tabella:

CREATE TABLE plr_modules (
modseq int4,
modsrc text
);

Inserisci in quella tabella la direttiva per caricare il modulo R in questione: INSERT INTO plr_modules VALUES (0, 'library(Kendall)' );
Riavviare il database (o SELECT * FROM reload_plr_modules();): sudo /etc/init.d/postgresql-8.4 restart

Creare una funzione wrapper in PostgreSQL:

CREATE OR REPLACE FUNCTION climate.plr_corr_kendall(
double precision[],
double precision[] )
RETURNS double precision AS
$BODY$
Kendall(arg1, arg2)
$BODY$
LANGUAGE 'plr' VOLATILE STRICT;

Creare una funzione che utilizza la funzione wrapper.
Prova la nuova funzione.

Wrapper Funzione

Questa funzione esegue il lavoro di raccolta dati dal database e la creazione di due array. Questi array sono passati nella funzione plr_corr_kendall involucro.

CREATE OR REPLACE FUNCTION climate.analysis_vector()
RETURNS double precision AS
$BODY$
DECLARE
  v_year_taken double precision[];
  v_amount double precision[];
  i RECORD;
BEGIN
  FOR i IN (
  SELECT
    extract(YEAR FROM m.taken) AS year_taken,
    avg( m.amount ) AS amount
  FROM
    climate.city c,
    climate.station s,
    climate.station_category sc,
    climate.measurement m
  WHERE 
    c.id = 5148 AND 
    earth_distance( 
      ll_to_earth(c.latitude_decimal,c.longitude_decimal), 
      ll_to_earth(s.latitude_decimal,s.longitude_decimal)) <= 30 AND 
    s.elevation BETWEEN 0  AND  3000  AND 
    s.applicable AND 
    sc.station_id = s.id AND 
    sc.category_id = 1 AND 
    extract(YEAR FROM sc.taken_start) >= 1900 AND 
    extract(YEAR FROM sc.taken_end) <= 2009 AND 
    m.station_id = s.id AND 
    m.taken BETWEEN sc.taken_start AND sc.taken_end AND 
    m.category_id = sc.category_id 
  GROUP BY 
    extract(YEAR FROM m.taken)
  ORDER BY
    extract(YEAR FROM m.taken)
  ) LOOP
    SELECT array_append( v_year_taken, i.year_taken ) INTO v_year_taken;
    SELECT array_append( v_amount, i.amount::double precision ) INTO v_amount;
  END LOOP;

  RAISE NOTICE '%', v_year_taken;
  RAISE NOTICE '%', v_amount;

  RETURN climate.plr_corr_kendall( v_year_taken, v_amount );
END;
$BODY$
LANGUAGE 'plpgsql' VOLATILE
COST 100;

test

Prova la funzione come segue:

SELECT
  *
FROM
  climate.analysis_vector();

Risultato

Una serie: -,0578900910913944

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow