Pergunta
1
00:00:00,074 --> 00:00:02,564
Previously on Breaking Bad...
2
00:00:02,663 --> 00:00:04,393
Words...
eu preciso analisar arquivos srt com php e imprimir a todas as sub-rotinas no arquivo com variáveis.
eu não conseguia encontrar o direito de admissão exps.ao fazer isso, eu preciso levar o id, o tempo e o subtítulo variáveis.e quando a impressão de existir não deve ser nenhum array() s ou etc.deve imprimir apenas as mesmas como o original do arquivo.
quer dizer, eu preciso de impressão como;
$number <br> (e.g. 1)
$time <br> (e.g. 00:00:00,074 --> 00:00:02,564)
$subtitle <br> (e.g. Previously on Breaking Bad...)
pelo jeito eu tenho este código.mas ele não ver as linhas.ele deve ser editado, mas como?
$srt_file = file('test.srt',FILE_IGNORE_NEW_LINES);
$regex = "/^(\d)+ ([\d]+:[\d]+:[\d]+,[\d]+) --> ([\d]+:[\d]+:[\d]+,[\d]+) (\w.+)/";
foreach($srt_file as $srt){
preg_match($regex,$srt,$srt_lines);
print_r($srt_lines);
echo '<br />';
}
Solução
Aqui está um pequeno e simples máquina de estado para analisar o arquivo SRT linha por linha:
define('SRT_STATE_SUBNUMBER', 0);
define('SRT_STATE_TIME', 1);
define('SRT_STATE_TEXT', 2);
define('SRT_STATE_BLANK', 3);
$lines = file('test.srt');
$subs = array();
$state = SRT_STATE_SUBNUMBER;
$subNum = 0;
$subText = '';
$subTime = '';
foreach($lines as $line) {
switch($state) {
case SRT_STATE_SUBNUMBER:
$subNum = trim($line);
$state = SRT_STATE_TIME;
break;
case SRT_STATE_TIME:
$subTime = trim($line);
$state = SRT_STATE_TEXT;
break;
case SRT_STATE_TEXT:
if (trim($line) == '') {
$sub = new stdClass;
$sub->number = $subNum;
list($sub->startTime, $sub->stopTime) = explode(' --> ', $subTime);
$sub->text = $subText;
$subText = '';
$state = SRT_STATE_SUBNUMBER;
$subs[] = $sub;
} else {
$subText .= $line;
}
break;
}
}
if ($state == SRT_STATE_TEXT) {
// if file was missing the trailing newlines, we'll be in this
// state here. Append the last read text and add the last sub.
$sub->text = $subText;
$subs[] = $sub;
}
print_r($subs);
Resultado:
Array
(
[0] => stdClass Object
(
[number] => 1
[stopTime] => 00:00:24,400
[startTime] => 00:00:20,000
[text] => Altocumulus clouds occur between six thousand
)
[1] => stdClass Object
(
[number] => 2
[stopTime] => 00:00:27,800
[startTime] => 00:00:24,600
[text] => and twenty thousand feet above ground level.
)
)
Em seguida, você pode fazer um loop sobre a matriz de sub-rotinas ou acessá-los pelo deslocamento de matriz:
echo $subs[0]->number . ' says ' . $subs[0]->text . "\n";
Para mostrar todos os subs loop através de cada um e apresentar:
foreach($subs as $sub) {
echo $sub->number . ' begins at ' . $sub->startTime .
' and ends at ' . $sub->stopTime . '. The text is: <br /><pre>' .
$sub->text . "</pre><br />\n";
}
Leitura adicional: SubRip Formato De Arquivo De Texto
Outras dicas
Que não vai para o jogo, porque o seu $srt_file matriz pode ter este aspecto:
Array
([0] => '1',
[1] => '00:00:00,074 --> 00:00:02,564',
[2] => 'Previously on Breaking Bad...'.
[3] => '',
[4] => '2',
...
)
Sua regex não vai corresponder a qualquer um desses elementos.
Se a sua intenção é ler o arquivo inteiro em uma memória de longo-devorador-de-uma-cadeia de caracteres, em seguida, usar file_get_contents para obter todo o conteúdo do arquivo em uma seqüência de caracteres.em seguida, use um preg_match_all para obter todas as regex corresponda.
Caso contrário, você pode tentar percorrer a matriz e tentar corresponder a vários padrões de regex para determinar se a linha é uma identificação, um intervalo de tempo, ou o texto e fazer as coisas de forma adequada.obviamente, você também pode querer um pouco de lógica para se certificar de que você está recebendo valores na ordem correta (id, o intervalo de tempo, então o texto).
Grupo a file()
matriz em blocos de 4 usando array_chunk()
, e , em seguida, omitir a última entrada, já que é uma linha em branco, como este:
foreach( array_chunk( file( 'test.srt'), 4) as $entry) {
list( $number, $time, $subtitle) = $entry;
echo $number . '<br />';
echo $time . '<br />';
echo $subtitle . '<br />';
}
Eu fiz uma classe para converter um .arquivo srt para a matriz.Cada entrada da matriz tem as seguintes propriedades:
- identificação:um número que representa a identificação da legenda (2)
- início:float, a hora de início em segundos (24.443)
- final:o flutuador, o fim do tempo em segundos (27.647)
- startString:a hora de início em formato legível para humanos (00:00:24.443)
- endString:o tempo final, em formato legível para humanos (00:00:24.647)
- duração:a duração da legenda, em ms (3204)
- texto:o texto do subtítulo (os Pavões governou a Cidade de Gongmen.)
O código é php7:
<?php
namespace VideoSubtitles\Srt;
class SrtToArrayTool
{
public static function getArrayByFile(string $file): array
{
$ret = [];
$gen = function ($filename) {
$file = fopen($filename, 'r');
while (($line = fgets($file)) !== false) {
yield rtrim($line);
}
fclose($file);
};
$c = 0;
$item = [];
$text = '';
$n = 0;
foreach ($gen($file) as $line) {
if ('' !== $line) {
if (0 === $n) {
$item['id'] = $line;
$n++;
}
elseif (1 === $n) {
$p = explode('-->', $line);
$start = str_replace(',', '.', trim($p[0]));
$end = str_replace(',', '.', trim($p[1]));
$startTime = self::toMilliSeconds(str_replace('.', ':', $start));
$endTime = self::toMilliSeconds(str_replace('.', ':', $end));
$item['start'] = $startTime / 1000;
$item['end'] = $endTime / 1000;
$item['startString'] = $start;
$item['endString'] = $end;
$item['duration'] = $endTime - $startTime;
$n++;
}
else {
if ($n >= 2) {
if ('' !== $text) {
$text .= PHP_EOL;
}
$text .= $line;
}
}
}
else {
if (0 !== $n) {
$item['text'] = $text;
$ret[] = $item;
$text = '';
$n = 0;
}
}
$c++;
}
return $ret;
}
private static function toMilliSeconds(string $duration): int
{
$p = explode(':', $duration);
return (int)$p[0] * 3600000 + (int)$p[1] * 60000 + (int)$p[2] * 1000 + (int)$p[3];
}
}
Ou confira aqui: https://github.com/lingtalfi/VideoSubtitles
Você pode usar esse projeto: https://github.com/captioning/captioning
Código de exemplo:
<?php
require_once __DIR__.'/../vendor/autoload.php';
use Captioning\Format\SubripFile;
try {
$file = new SubripFile('your_file.srt');
foreach ($file->getCues() as $line) {
echo 'start: ' . $line->getStart() . "<br />\n";
echo 'stop: ' . $line->getStop() . "<br />\n";
echo 'startMS: ' . $line->getStartMS() . "<br />\n";
echo 'stopMS: ' . $line->getStopMS() . "<br />\n";
echo 'text: ' . $line->getText() . "<br />\n";
echo "=====================<br />\n";
}
} catch(Exception $e) {
echo "Error: ".$e->getMessage()."\n";
}
Exemplo de saída:
> php index.php
start: 00:01:48,387<br />
stop: 00:01:53,269<br />
startMS: 108387<br />
stopMS: 113269<br />
text: ┘ç┘à╪د┘ç┘┌»█î ╪▓█î╪▒┘┘ê█î╪│ ╪ذ╪د ┌ر█î┘█î╪ز ╪ذ┘┘ê╪▒█î ┘ê ┌ر╪»┌ر x265
=====================<br />
start: 00:02:09,360<br />
stop: 00:02:12,021<br />
startMS: 129360<br />
stopMS: 132021<br />
text: .┘à╪د ┘╪ذ╪د┘è╪» ╪ز┘┘ç╪د┘è┘è ╪د┘è┘╪ش╪د ╪ذ╪د╪┤┘è┘à -
┌╪▒╪د ╪ا<br />
=====================<br />
start: 00:02:12,022<br />
stop: 00:02:14,725<br />
startMS: 132022<br />
stopMS: 134725<br />
text: ..╪د┌»┘ç ┘╛╪»╪▒╪ز -
.╪د┘ê┘ ┘ç┘è┌┘ê┘é╪ز ┘à╪ز┘ê╪ش┘ç ╪▒┘╪ز┘┘à┘ê┘ ┘┘à┘è╪┤┘ç -<br />
=====================<br />
isso pode ser feito usando php quebra de linha.Eu poderia fazê-lo com êxito deixe-me mostrar o meu código
$srt=preg_split("/\\r\\n\\r\\n/",trim($movie->SRT));
$result[$i]['IMDBID']=$movie->IMDBID;
$result[$i]['TMDBID']=$movie->TMDBID;
aqui $movie->SRT é o subtítulo de ter o formato de u postado nesta questão.como podemos ver, cada espaço de tempo é de dois nova linha, espero q a obtenção de resposta.