在 sql 结果中填充空日期的最直接方法是什么(在 mysql 或 perl 端)?

StackOverflow https://stackoverflow.com/questions/75752

  •  09-06-2019
  •  | 
  •  

我正在从 mysql 表构建一个快速 csv,查询如下:

select DATE(date),count(date) from table group by DATE(date) order by date asc;

然后将它们转储到 perl 中的文件中:

while(my($date,$sum) = $sth->fetchrow) {
    print CSV "$date,$sum\n"
}

不过,数据中存在日期差距:

| 2008-08-05 |           4 | 
| 2008-08-07 |          23 | 

我想填充数据以用零计数条目填充缺失的天数,最终得到:

| 2008-08-05 |           4 | 
| 2008-08-06 |           0 | 
| 2008-08-07 |          23 | 

我用一系列每月的天数和一些数学知识拼凑出了一个非常尴尬(而且几乎肯定有错误)的解决方法,但在 mysql 或 perl 方面必须有更简单的东西。

有什么天才的想法/耳光可以解释为什么我这么愚蠢吗?


我最终使用了一个存储过程,该过程为相关日期范围生成了一个临时表,原因如下:

  • 我知道我每次要寻找的日期范围
  • 不幸的是,有问题的服务器不是我可以在 atm 上安装 perl 模块的服务器,而且它的状态已经很破旧,没有远程安装任何东西 Date::-y

perl Date/DateTime 迭代的答案也非常好,我希望我可以选择多个答案!

有帮助吗?

解决方案

当您在服务器端需要类似的东西时,通常会创建一个表,其中包含两个时间点之间所有可能的日期,然后将该表与查询结果左连接。像这样的东西:

create procedure sp1(d1 date, d2 date)
  declare d datetime;

  create temporary table foo (d date not null);

  set d = d1
  while d <= d2 do
    insert into foo (d) values (d)
    set d = date_add(d, interval 1 day)
  end while

  select foo.d, count(date)
  from foo left join table on foo.d = table.date
  group by foo.d order by foo.d asc;

  drop temporary table foo;
end procedure

在这种特殊情况下,最好在客户端进行一些检查,如果当前日期不是 previos+1,则添加一些附加字符串。

其他提示

当我必须处理这个问题时,为了填写缺失的日期,我实际上创建了一个参考表,其中仅包含我感兴趣的所有日期,并在日期字段上加入了数据表。这很粗糙,但很有效。

SELECT DATE(r.date),count(d.date) 
FROM dates AS r 
LEFT JOIN table AS d ON d.date = r.date 
GROUP BY DATE(r.date) 
ORDER BY r.date ASC;

至于输出,我只是使用 选择到概要文件中 而不是手动生成 CSV。让我们也不必担心转义特殊字符。

不傻,这不是 MySQL 所做的事情,插入空日期值。我在 Perl 中通过两步过程完成此操作。首先,将查询中的所有数据加载到按日期组织的哈希中。然后,我创建一个 Date::EzDate 对象并按天递增它,所以......

my $current_date = Date::EzDate->new();
$current_date->{'default'} = '{YEAR}-{MONTH NUMBER BASE 1}-{DAY OF MONTH}';
while ($current_date <= $final_date)
{
    print "$current_date\t|\t%hash_o_data{$current_date}";  # EzDate provides for     automatic stringification in the format specfied in 'default'
    $current_date++;
}

其中最终日期是另一个 EzDate 对象或包含日期范围结尾的字符串。

EzDate 目前不在 CPAN 上,但您可能可以找到另一个 perl mod,它将进行日期比较并提供日期增量器。

你可以使用 约会时间 目的:

use DateTime;
my $dt;

while ( my ($date, $sum) = $sth->fetchrow )  {
    if (defined $dt) {
        print CSV $dt->ymd . ",0\n" while $dt->add(days => 1)->ymd lt $date;
    }
    else {
        my ($y, $m, $d) = split /-/, $date;
        $dt = DateTime->new(year => $y, month => $m, day => $d);
    }
    print CSV, "$date,$sum\n";
}

上面的代码的作用是将最后打印的日期存储在DateTime 目的 $dt, ,当当前日期将来超过一天时,它会增加 $dt 一天(并打印一行CSV) 直到与当前日期相同。

这样,您就不需要额外的桌子,也无需提前获取所有行。

我希望你能弄清楚剩下的事情。

select  * from (
select date_add('2003-01-01 00:00:00.000', INTERVAL n5.num*10000+n4.num*1000+n3.num*100+n2.num*10+n1.num DAY ) as date from
(select 0 as num
   union all select 1
   union all select 2
   union all select 3
   union all select 4
   union all select 5
   union all select 6
   union all select 7
   union all select 8
   union all select 9) n1,
(select 0 as num
   union all select 1
   union all select 2
   union all select 3
   union all select 4
   union all select 5
   union all select 6
   union all select 7
   union all select 8
   union all select 9) n2,
(select 0 as num
   union all select 1
   union all select 2
   union all select 3
   union all select 4
   union all select 5
   union all select 6
   union all select 7
   union all select 8
   union all select 9) n3,
(select 0 as num
   union all select 1
   union all select 2
   union all select 3
   union all select 4
   union all select 5
   union all select 6
   union all select 7
   union all select 8
   union all select 9) n4,
(select 0 as num
   union all select 1
   union all select 2
   union all select 3
   union all select 4
   union all select 5
   union all select 6
   union all select 7
   union all select 8
   union all select 9) n5
) a
where date >'2011-01-02 00:00:00.000' and date < NOW()
order by date

select n3.num*100+n2.num*10+n1.num as date

您将得到一列包含从 0 到 max(n3)*100+max(n2)*10+max(n1) 的数字

因为这里我们的最大 n3 为 3,所以 SELECT 将返回 399,加上 0 -> 400 条记录(日历中的日期)。

您可以通过限制来调整动态日历,例如,从您必须的 min(date) 到 now()。

由于您不知道差距在哪里,但您希望获得从列表中的第一个日期到最后一个日期的所有值(大概),请执行以下操作:

use DateTime;
use DateTime::Format::Strptime;
my @row = $sth->fetchrow;
my $countdate = strptime("%Y-%m-%d", $firstrow[0]);
my $thisdate = strptime("%Y-%m-%d", $firstrow[0]);

while ($countdate) {
  # keep looping countdate until it hits the next db row date
  if(DateTime->compare($countdate, $thisdate) == -1) {
    # counter not reached next date yet
    print CSV $countdate->ymd . ",0\n";
    $countdate = $countdate->add( days => 1 );
    $next;
  }

  # countdate is equal to next row's date, so print that instead
  print CSV $thisdate->ymd . ",$row[1]\n";

  # increase both
  @row = $sth->fetchrow;
  $thisdate = strptime("%Y-%m-%d", $firstrow[0]);
  $countdate = $countdate->add( days => 1 );
}

嗯,结果比我想象的要复杂..我希望这是有道理的!

我认为解决这个问题的最简单的通用解决方案是创建一个 Ordinal 具有您需要的最大行数的表(在您的情况下为 31*3 = 93)。

CREATE TABLE IF NOT EXISTS `Ordinal` (
  `n` int(10) unsigned NOT NULL AUTO_INCREMENT, PRIMARY KEY (`n`)
);
INSERT INTO `Ordinal` (`n`)
VALUES (NULL), (NULL), (NULL); #etc

接下来,做一个 LEFT JOINOrdinal 到您的数据上。这是一个简单的例子,获取上周的每一天:

SELECT CURDATE() - INTERVAL `n` DAY AS `day`
FROM `Ordinal` WHERE `n` <= 7
ORDER BY `n` ASC

您需要更改的两件事是起点和间隔。我用过 SET @var = 'value' 为了清晰起见语法。

SET @end = CURDATE() - INTERVAL DAY(CURDATE()) DAY;
SET @begin = @end - INTERVAL 3 MONTH;
SET @period = DATEDIFF(@end, @begin);

SELECT @begin + INTERVAL (`n` + 1) DAY AS `date`
FROM `Ordinal` WHERE `n` < @period
ORDER BY `n` ASC;

因此,如果您加入以获取过去三个月每天的消息数,那么最终的代码将如下所示:

SELECT COUNT(`msg`.`id`) AS `message_count`, `ord`.`date` FROM (
    SELECT ((CURDATE() - INTERVAL DAY(CURDATE()) DAY) - INTERVAL 3 MONTH) + INTERVAL (`n` + 1) DAY AS `date`
    FROM `Ordinal`
    WHERE `n` < (DATEDIFF((CURDATE() - INTERVAL DAY(CURDATE()) DAY), ((CURDATE() - INTERVAL DAY(CURDATE()) DAY) - INTERVAL 3 MONTH)))
    ORDER BY `n` ASC
) AS `ord`
LEFT JOIN `Message` AS `msg`
  ON `ord`.`date` = `msg`.`date`
GROUP BY `ord`.`date`

提示和评论:

  • 查询中最困难的部分可能是确定限制时要使用的天数 Ordinal. 。相比之下,将该整数序列转换为日期很容易。
  • 您可以使用 Ordinal 满足您所有不间断的需求。只需确保它包含的行数多于最长的序列即可。
  • 您可以使用多个查询 Ordinal 对于多个序列,例如列出过去七 (1-7) 周的每个工作日 (1-5)。
  • 您可以通过将日期存储在您的 Ordinal 表,但灵活性会较差。这样你只需要一个 Ordinal 表,无论您使用多少次。不过,如果速度值得,请尝试 INSERT INTO ... SELECT 句法。

使用一些Perl模块进行日期计算,例如推荐的DateTime或Time::Piece(5.10的核心)。只需递增日期并打印日期和 0,直到日期与当前日期匹配。

我不知道这是否可行,但是如果您创建一个包含所有可能日期的新表(这可能是这个想法的问题,如果日期范围将发生不可预测的变化......)并且然后对两个表进行左连接?我想如果有大量可能的日期,或者无法预测第一个和最后一个日期,那么这是一个疯狂的解决方案,但如果日期范围是固定的或易于计算出来,那么这可能会起作用。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top