PL/R中的R加载，清单和使用R模块和功能

https://stackoverflow.com/questions/2932028

05-10-2019
|

题

我很难：

列出可用于PostgreSQL的R软件包和功能。
安装包裹（例如肯德尔）与PL/R一起使用
在PostgreSQL中调用R函数

列表可用的r软件包

Q.1。 您如何找到已加载的R模块？

SELECT * FROM r_typenames();

这显示了可用的类型，但是检查是否是否 Kendall( X, Y ) 加载了吗？例如，文档显示：

CREATE TABLE plr_modules (
  modseq int4,
  modsrc text
);

这似乎允许插入记录决定 Kendall 要加载，但是以下代码不能从句法上解释如何确保其加载：

INSERT INTO plr_modules
  VALUES (0, 'pg.test.module.load <-function(msg) {print(msg)}');

Q.2。 如果您想加载上述线路会是什么样 Kendall?
Q.3。 它适用吗？

安装R软件包

使用“突触”软件包管理器已安装以下软件包：

r-base
r-base-core
r-base-dev
r-base-html
r-base-latex
r-cran-acepack
r-cran-boot
r-cran-car
r-cran-chron
r-cran-cluster
r-cran-codetools
r-cran-design
r-cran-foreign
r-cran-hmisc
r-cran-kernsmooth
r-cran-lattice
r-cran-matrix
r-cran-mgcv
r-cran-nlme
r-cran-quadprog
r-cran-robustbase
r-cran-rpart
r-cran-survival
r-cran-vr
r-recommended

Q.4。 我怎么知道肯德尔是否在那里？
Q.5。 如果不是这样，我该如何找出它的包裹？
Q.6。 如果它不在适合安装的包装中 apt-get (aptitude, synaptic, dpkg, ，您是什么），如何在Ubuntu上安装它？
Q.7。 安装步骤在哪里记录？

调用r函数

我有以下代码：

EXECUTE 'SELECT '
  'regr_slope( amount, year_taken ),'
  'regr_intercept( amount, year_taken ),'
  'corr( amount, year_taken ),'
  'sum( measurements ) AS total_measurements '
'FROM temp_regression'
INTO STRICT slope, intercept, correlation, total_measurements;

此代码调用PostgreSQL函数 corr 计算Pearson在数据上的相关性。理想情况下，我想做以下（通过切换 corr 为了 plr_kendall):

EXECUTE 'SELECT '
  'regr_slope( amount, year_taken ),'
  'regr_intercept( amount, year_taken ),'
  'plr_kendall( amount, year_taken ),'
  'sum( measurements ) AS total_measurements '
'FROM temp_regression'
INTO STRICT slope, intercept, correlation, total_measurements;

Q.8。 我必须写吗 plr_kendall 我？
Q.9。 我在哪里可以找到 简单的 漫长的例子：

将R模块加载到PG中。
为所需的R函数编写PG包装器。
从选择中调用PG包装器。

例如，最后两个步骤看起来像：

create or replace function plr_kendall( _float8, _float8 ) returns float as '
  agg_kendall(arg1, arg2)
' language 'plr';

CREATE AGGREGATE agg_kendall (
  sfunc = plr_array_accum,
  basetype = float8, -- ???
  stype = _float8, -- ???
  finalfunc = plr_kendall
);

然后 SELECT 如上？

谢谢！

解决方案

概述

这些步骤列出了如何使用PL/R从PostgreSQL调用R函数。

前准则

您必须已经安装了PostgreSQL，R和PL/R。

脚步

查找R模块名称（例如， Kendall)
更改为数据库用户：sudo su - postgres
运行rR
安装R模块（接受 $HOME/R/x86_64-pc-linux-gnu-library/2.9/): install.packages("Kendall", dependencies = TRUE)
提示时，请选择一条cran镜。

创建下表：

CREATE TABLE plr_modules (
modseq int4,
modsrc text
);

插入该表中的指令加载有关R模块的指令：

INSERT INTO plr_modules
VALUES (0, 'library(Kendall)' );

重新启动数据库（或 SELECT * FROM reload_plr_modules();): sudo /etc/init.d/postgresql-8.4 restart

在PostgreSQL中创建包装器函数：

CREATE OR REPLACE FUNCTION climate.plr_corr_kendall(
double precision[],
double precision[] )
RETURNS double precision AS
$BODY$
Kendall(arg1, arg2)
$BODY$
LANGUAGE 'plr' VOLATILE STRICT;

创建一个使用包装函数的函数。
测试新功能。

包装器功能

此功能执行从数据库收集数据并创建两个数组的工作。这些阵列被传递到 plr_corr_kendall 包装器功能。

CREATE OR REPLACE FUNCTION climate.analysis_vector()
RETURNS double precision AS
$BODY$
DECLARE
  v_year_taken double precision[];
  v_amount double precision[];
  i RECORD;
BEGIN
  FOR i IN (
  SELECT
    extract(YEAR FROM m.taken) AS year_taken,
    avg( m.amount ) AS amount
  FROM
    climate.city c,
    climate.station s,
    climate.station_category sc,
    climate.measurement m
  WHERE 
    c.id = 5148 AND 
    earth_distance( 
      ll_to_earth(c.latitude_decimal,c.longitude_decimal), 
      ll_to_earth(s.latitude_decimal,s.longitude_decimal)) <= 30 AND 
    s.elevation BETWEEN 0  AND  3000  AND 
    s.applicable AND 
    sc.station_id = s.id AND 
    sc.category_id = 1 AND 
    extract(YEAR FROM sc.taken_start) >= 1900 AND 
    extract(YEAR FROM sc.taken_end) <= 2009 AND 
    m.station_id = s.id AND 
    m.taken BETWEEN sc.taken_start AND sc.taken_end AND 
    m.category_id = sc.category_id 
  GROUP BY 
    extract(YEAR FROM m.taken)
  ORDER BY
    extract(YEAR FROM m.taken)
  ) LOOP
    SELECT array_append( v_year_taken, i.year_taken ) INTO v_year_taken;
    SELECT array_append( v_amount, i.amount::double precision ) INTO v_amount;
  END LOOP;

  RAISE NOTICE '%', v_year_taken;
  RAISE NOTICE '%', v_amount;

  RETURN climate.plr_corr_kendall( v_year_taken, v_amount );
END;
$BODY$
LANGUAGE 'plpgsql' VOLATILE
COST 100;

测试

测试功能如下：

SELECT
  *
FROM
  climate.analysis_vector();

结果

一个数字：-0.0578900910913944

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow