.srtファイルの解析

https://stackoverflow.com//questions/11659118

11-12-2019
|

質問

1
00:00:00,074 --> 00:00:02,564
Previously on Breaking Bad...

2
00:00:02,663 --> 00:00:04,393
Words...

PHPでSRTファイルを解析し、ファイル内のすべてのサブを変数に印刷する必要があります。

私は正しいREG EXPを見つけることができませんでした。これを行うとき、ID、時間、および字幕変数を取る必要があります。そして、そこに印刷するときには、Array（）Sなどがないかなどではない。

私は私が印刷しなければならないということです。

$number <br> (e.g. 1)
$time <br> (e.g. 00:00:00,074 --> 00:00:02,564)
$subtitle <br> (e.g. Previously on Breaking Bad...)

このコードを持っています。しかし、それは行を見ません。編集する必要がありますが、どのように？

$srt_file = file('test.srt',FILE_IGNORE_NEW_LINES);
$regex = "/^(\d)+ ([\d]+:[\d]+:[\d]+,[\d]+) --> ([\d]+:[\d]+:[\d]+,[\d]+) (\w.+)/";

foreach($srt_file as $srt){

    preg_match($regex,$srt,$srt_lines);

    print_r($srt_lines);
    echo '<br />';

}

解決

これはSRTファイル行を1行ずつ解析するための短くて単純な状態マシンです。

define('SRT_STATE_SUBNUMBER', 0);
define('SRT_STATE_TIME',      1);
define('SRT_STATE_TEXT',      2);
define('SRT_STATE_BLANK',     3);

$lines   = file('test.srt');

$subs    = array();
$state   = SRT_STATE_SUBNUMBER;
$subNum  = 0;
$subText = '';
$subTime = '';

foreach($lines as $line) {
    switch($state) {
        case SRT_STATE_SUBNUMBER:
            $subNum = trim($line);
            $state  = SRT_STATE_TIME;
            break;

        case SRT_STATE_TIME:
            $subTime = trim($line);
            $state   = SRT_STATE_TEXT;
            break;

        case SRT_STATE_TEXT:
            if (trim($line) == '') {
                $sub = new stdClass;
                $sub->number = $subNum;
                list($sub->startTime, $sub->stopTime) = explode(' --> ', $subTime);
                $sub->text   = $subText;
                $subText     = '';
                $state       = SRT_STATE_SUBNUMBER;

                $subs[]      = $sub;
            } else {
                $subText .= $line;
            }
            break;
    }
}

if ($state == SRT_STATE_TEXT) {
    // if file was missing the trailing newlines, we'll be in this
    // state here.  Append the last read text and add the last sub.
    $sub->text = $subText;
    $subs[] = $sub;
}

print_r($subs);

結果：

Array
(
    [0] => stdClass Object
        (
            [number] => 1
            [stopTime] => 00:00:24,400
            [startTime] => 00:00:20,000
            [text] => Altocumulus clouds occur between six thousand
        )

    [1] => stdClass Object
        (
            [number] => 2
            [stopTime] => 00:00:27,800
            [startTime] => 00:00:24,600
            [text] => and twenty thousand feet above ground level.
        )

)

その後、SUBSの配列をループまたは配列オフセットでアクセスすることができます。

echo $subs[0]->number . ' says ' . $subs[0]->text . "\n";

それぞれをループして表示することによってすべての契約を示すために：

foreach($subs as $sub) {
    echo $sub->number . ' begins at ' . $sub->startTime .
         ' and ends at ' . $sub->stopTime . '.  The text is: <br /><pre>' .
         $sub->text . "</pre><br />\n";
}

さらに読み取り：サブリップテキストファイル形式

他のヒント

あなたの$ srt_file配列がこのように見えるかもしれないので一致するつもりはない：

Array
([0] => '1',
[1] => '00:00:00,074 --> 00:00:02,564',
[2] => 'Previously on Breaking Bad...'.
[3] => '',
[4] => '2',
...
)

あなたの正規表現はそれらの要素のどれでも一致するつもりはない。

あなたの意図が1つの長さのメモリhog-hog-hog-hog-hog-hog-hog-hog-hog-hog-hog-hog-hog-of-ale-alight of-ale-alight of-ale-ale-alightを使用して、ファイルの内容全体を1つの文字列に入れることができます。その後、PREG_MATCH_ALLを使用してすべての正規表現一致を取得します。

それ以外の場合は、配列をループして、さまざまな正規表現パターンと一致させて、行がID、時間範囲、またはテキストであるかどうかを判断して適切にすることができます。明らかにあなたが正しい順序で値を取得していることをいくつかのロジック（ID、時範囲、次にテキスト）を確実にすることもできます。

Group file() を使用して、4のチャンクにグループ化します。このように：

foreach( array_chunk( file( 'test.srt'), 4) as $entry) {
    list( $number, $time, $subtitle) = $entry;
    echo $number . '<br />';
    echo $time . '<br />';
    echo $subtitle . '<br />';
}

.srtファイルを配列に変換するためのクラスを作成しました。配列の各エントリには、次のプロパティがあります。

ID：字幕（2）のIDを表す数字
start：float、秒単位（24.443）
end：float、秒単位の終了時間（27.647）
スタートストリング：人間読み取り可能なフォーマットの開始時刻（00：00：24.443）
エンドストリング：人間読み取り可能な形式の終了時間（00：00：24.647）
期間：字幕の期間、MS（3204）

テキスト：字幕のテキスト（議会議事堂の都市都市））
コードはPHP7：です。
<?php namespace VideoSubtitles\Srt; class SrtToArrayTool { public static function getArrayByFile(string $file): array { $ret = []; $gen = function ($filename) { $file = fopen($filename, 'r'); while (($line = fgets($file)) !== false) { yield rtrim($line); } fclose($file); }; $c = 0; $item = []; $text = ''; $n = 0; foreach ($gen($file) as $line) { if ('' !== $line) { if (0 === $n) { $item['id'] = $line; $n++; } elseif (1 === $n) { $p = explode('-->', $line); $start = str_replace(',', '.', trim($p[0])); $end = str_replace(',', '.', trim($p[1])); $startTime = self::toMilliSeconds(str_replace('.', ':', $start)); $endTime = self::toMilliSeconds(str_replace('.', ':', $end)); $item['start'] = $startTime / 1000; $item['end'] = $endTime / 1000; $item['startString'] = $start; $item['endString'] = $end; $item['duration'] = $endTime - $startTime; $n++; } else { if ($n >= 2) { if ('' !== $text) { $text .= PHP_EOL; } $text .= $line; } } } else { if (0 !== $n) { $item['text'] = $text; $ret[] = $item; $text = ''; $n = 0; } } $c++; } return $ret; } private static function toMilliSeconds(string $duration): int { $p = explode(':', $duration); return (int)$p[0] * 3600000 + (int)$p[1] * 60000 + (int)$p[2] * 1000 + (int)$p[3]; } }
.
またはそれをチェックしてください。 https://github.com/lingtalfi/videosubtitles

このプロジェクトを使用できます。 https://github.com/captioning/captioning

サンプルコード：

<?php
require_once __DIR__.'/../vendor/autoload.php';

use Captioning\Format\SubripFile;

try {
    $file = new SubripFile('your_file.srt');

    foreach ($file->getCues() as $line) {
        echo 'start: ' . $line->getStart() . "<br />\n";
        echo 'stop: ' . $line->getStop() . "<br />\n";
        echo 'startMS: ' . $line->getStartMS() . "<br />\n";
        echo 'stopMS: ' . $line->getStopMS() . "<br />\n";
        echo 'text: ' . $line->getText() . "<br />\n";
        echo "=====================<br />\n";
    }

} catch(Exception $e) {
    echo "Error: ".$e->getMessage()."\n";
}

サンプル出力：

> php index.php
start: 00:01:48,387<br />
stop: 00:01:53,269<br />
startMS: 108387<br />
stopMS: 113269<br />
text: ┘ç┘à╪د┘ç┘┌»█î ╪▓█î╪▒┘┘ê█î╪│ ╪ذ╪د ┌ر█î┘█î╪ز ╪ذ┘┘ê╪▒█î ┘ê ┌ر╪»┌ر x265
=====================<br />
start: 00:02:09,360<br />
stop: 00:02:12,021<br />
startMS: 129360<br />
stopMS: 132021<br />
text: .┘à╪د ┘╪ذ╪د┘è╪» ╪ز┘┘ç╪د┘è┘è ╪د┘è┘╪ش╪د ╪ذ╪د╪┤┘è┘à -
┌╪▒╪د ╪ا<br />
=====================<br />
start: 00:02:12,022<br />
stop: 00:02:14,725<br />
startMS: 132022<br />
stopMS: 134725<br />
text: ..╪د┌»┘ç ┘╛╪»╪▒╪ز -
.╪د┘ê┘ ┘ç┘è┌┘ê┘é╪ز ┘à╪ز┘ê╪ش┘ç ╪▒┘╪ز┘┘à┘ê┘ ┘┘à┘è╪┤┘ç -<br />
=====================<br />

PHPラインブレークを使用することでできます。私はうまくできることができましたコードを見せて

$srt=preg_split("/\\r\\n\\r\\n/",trim($movie->SRT));
            $result[$i]['IMDBID']=$movie->IMDBID;
            $result[$i]['TMDBID']=$movie->TMDBID;

ここで$映画→SRTは、この質問に投稿されたフォーマットを有する字幕です。見るように、各時間スペースは2つの新しい行です。答えを得ることを願っています。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow