Распараллелить Bash-скрипт с максимальным количеством процессов

https://stackoverflow.com/questions/38160

bash

09-06-2019
|

Вопрос

Допустим, у меня есть цикл в Bash:

for foo in `some-command`
do
   do-something $foo
done

do-something привязан к процессору, и у меня хороший блестящий 4-ядерный процессор.Я бы хотел иметь возможность работать до 4 do-something- это сразу.

Наивный подход, по-видимому, заключается в:

for foo in `some-command`
do
   do-something $foo &
done

Это будет запущено ВСЕ do-somethings сразу, но есть пара недостатков, в основном из-за того, что do-something также может иметь некоторые существенные операции ввода-вывода, которые выполняют ВСЕ сразу может немного замедлиться.Другая проблема заключается в том, что этот блок кода возвращается немедленно, поэтому нет возможности выполнять другую работу, когда все do-somethingс ними покончено.

Как бы вы написали этот цикл, чтобы всегда было X do-somethingон сразу же бежит?

Решение

В зависимости от того, что вы хотите сделать, xargs также может помочь (здесь: преобразование документов с помощью pdf2ps):

cpus=$( ls -d /sys/devices/system/cpu/cpu[[:digit:]]* | wc -w )

find . -name \*.pdf | xargs --max-args=1 --max-procs=$cpus  pdf2ps

Из документов:

--max-procs=max-procs
-P max-procs
       Run up to max-procs processes at a time; the default is 1.
       If max-procs is 0, xargs will run as many processes as  possible  at  a
       time.  Use the -n option with -P; otherwise chances are that only one
       exec will be done.

Другие советы

С GNU Parallel http://www.gnu.org/software/parallel/ вы можете написать:

some-command | parallel do-something

GNU Parallel также поддерживает выполнение заданий на удаленных компьютерах.Это позволит запускать по одному ядру процессора на удаленных компьютерах, даже если у них разное количество ядер:

some-command | parallel -S server1,server2 do-something

Более продвинутый пример:Здесь мы приводим список файлов, на которых мы хотим запустить my_script.Файлы имеют расширение (возможно, .jpeg).Мы хотим, чтобы выходные данные my_script были помещены рядом с файлами в basename.out (напримерfoo.jpeg -> foo.out).Мы хотим запустить my_script один раз для каждого ядра, имеющегося на компьютере, и мы также хотим запустить его на локальном компьютере.Для удаленных компьютеров мы хотим, чтобы файл, который будет обработан, был передан на данный компьютер.Когда my_script завершит работу, мы хотим, чтобы foo.out был перенесен обратно, а затем мы хотим, чтобы foo.jpeg и foo.out были удалены с удаленного компьютера:

cat list_of_files | \
parallel --trc {.}.out -S server1,server2,: \
"my_script {} > {.}.out"

GNU Parallel гарантирует, что выходные данные каждого задания не смешиваются, поэтому вы можете использовать выходные данные в качестве входных данных для другой программы:

some-command | parallel do-something | postprocess

Смотрите видео для получения дополнительных примеров: https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

maxjobs=4
parallelize () {
        while [ $# -gt 0 ] ; do
                jobcnt=(`jobs -p`)
                if [ ${#jobcnt[@]} -lt $maxjobs ] ; then
                        do-something $1 &
                        shift  
                else
                        sleep 1
                fi
        done
        wait
}

parallelize arg1 arg2 "5 args to third job" arg4 ...

Вместо простого bash, используйте Makefile, затем укажите количество одновременных заданий с помощью make -jX, где X - количество одновременно запускаемых заданий.

Или вы можете использовать wait (" man wait "): запустить несколько дочерних процессов, вызвать <=> - он завершится после завершения дочерних процессов.

maxjobs = 10

foreach line in `cat file.txt` {
 jobsrunning = 0
 while jobsrunning < maxjobs {
  do job &
  jobsrunning += 1
 }
wait
}

job ( ){
...
}

Если вам нужно сохранить результат задания, присвойте его результат переменной. После <=> вы просто проверяете, что содержит переменная.

Вот альтернативное решение, которое можно вставить в .bashrc и использовать для повседневного использования:

function pwait() {
    while [ $(jobs -p | wc -l) -ge $1 ]; do
        sleep 1
    done
}

Чтобы использовать его, все, что нужно сделать - это поставить & после заданий и вызова pwait, параметр дает число параллельных процессов:

for i in *; do
    do_something $i &
    pwait 10
done

Было бы лучше использовать wait вместо ожидания ожидания на выходе jobs -p, но не представляется очевидным решение подождать, пока какое-либо из заданий будет завершено, а не все их.

Может быть, попробуйте утилиту распараллеливания вместо переписывания цикла? Я большой поклонник xjobs. Я все время использую xjobs для массового копирования файлов в нашей сети, обычно при настройке нового сервера базы данных. http://www.maier-komor.de/xjobs.html

Делая это прямо в bash вероятно, это невозможно, вы можете сделать полуправое движение довольно легко. bstark дал справедливое приближение right, но у него есть следующие недостатки:

Разделение слов:Вы не можете передавать ему какие-либо задания, которые используют любой из следующих символов в своих аргументах:пробелы, табуляция, перевод строк, звездочки, вопросительные знаки.Если вы это сделаете, все сломается, возможно, неожиданно.
Это зависит от остальной части вашего скрипта, чтобы ничего не создавать на заднем плане.Если вы это сделаете или позже добавите что-то в скрипт, который отправляется в фоновом режиме, потому что вы забыли, что вам не разрешено использовать фоновые задания из-за его фрагмента, все сломается.

Другим приближением, которое не имеет этих недостатков, является следующее:

scheduleAll() {
    local job i=0 max=4 pids=()

    for job; do
        (( ++i % max == 0 )) && {
            wait "${pids[@]}"
            pids=()
        }

        bash -c "$job" & pids+=("$!")
    done

    wait "${pids[@]}"
}

Обратите внимание, что этот способ легко адаптируется для проверки кода выхода каждого задания по мере его завершения, чтобы вы могли предупредить пользователя в случае сбоя задания или установить код выхода для scheduleAll в зависимости от количества проваленных заданий или что-то в этом роде.

Проблема с этим кодом как раз в том, что:

Он планирует выполнение четырех (в данном случае) заданий одновременно, а затем ожидает завершения всех четырех.Некоторые из них могут быть выполнены раньше других, что приведет к тому, что следующий пакет из четырех заданий будет ждать, пока не будет выполнено самое длинное из предыдущего пакета.

Решение, которое решает эту последнюю проблему, должно было бы использовать kill -0 чтобы опросить, исчез ли какой-либо из процессов, вместо wait и запланируйте следующее задание.Однако это создает небольшую новую проблему:у вас есть условие гонки между завершением задания и kill -0 проверяю, закончилось ли это.Если задание завершено, и другой процесс в вашей системе запускается в то же время, принимая случайный PID, который совпадает с только что завершенным заданием, kill -0 вы не заметите, как закончите свою работу, и все снова сломается.

Идеальное решение невозможно в bash.

Если вы знакомы с командой make, большую часть времени вы можете выразить список команд, которые вы хотите запустить, в виде make-файла. Например, если вам нужно запустить $ SOME_COMMAND для файлов * .input, каждый из которых создает * .output, вы можете использовать make-файл

INPUT  = a.input b.input
OUTPUT = $(INPUT:.input=.output)

%.output : %.input
    $(SOME_COMMAND) $< $@

all: $(OUTPUT)

а затем просто запустите

make -j<NUMBER>

для параллельного выполнения не более чем NUMBER команд.

функция для bash:

parallel ()
{
    awk "BEGIN{print \"all: ALL_TARGETS\\n\"}{print \"TARGET_\"NR\":\\n\\t@-\"\$0\"\\n\"}END{printf \"ALL_TARGETS:\";for(i=1;i<=NR;i++){printf \" TARGET_%d\",i};print\"\\n\"}" | make $@ -f - all
}

используя:

cat my_commands | parallel -j 4

Проект, над которым я работаю, использует команду wait для управления процессами параллельной оболочки (на самом деле ksh). Чтобы решить ваши проблемы с вводом-выводом в современных ОС, возможно, что параллельное выполнение фактически повысит эффективность. Если все процессы читают одни и те же блоки на диске, только первый процесс должен получить доступ к физическому оборудованию. Другие процессы часто смогут извлечь блок из дискового кэша ОС в памяти. Очевидно, что чтение из памяти на несколько порядков быстрее, чем чтение с диска. Кроме того, это преимущество не требует изменений кодировки.

Это может быть достаточно для большинства целей, но не оптимально.

#!/bin/bash

n=0
maxjobs=10

for i in *.m4a ; do
    # ( DO SOMETHING ) &

    # limit jobs
    if (( $(($((++n)) % $maxjobs)) == 0 )) ; then
        wait # wait until all have finished (not optimal, but most times good enough)
        echo $n wait
    fi
done

В самом деле опаздываю на вечеринку, но вот другое решение.

Многие решения не обрабатывают пробелы / специальные символы в командах, не поддерживают постоянное выполнение N заданий, потребляют процессор в циклах занятости или полагаются на внешние зависимости (напримерГНУ parallel).

С вдохновение для обработки процессов dead / zombie, вот чистое решение bash:

function run_parallel_jobs {
    local concurrent_max=$1
    local callback=$2
    local cmds=("${@:3}")
    local jobs=( )

    while [[ "${#cmds[@]}" -gt 0 ]] || [[ "${#jobs[@]}" -gt 0 ]]; do
        while [[ "${#jobs[@]}" -lt $concurrent_max ]] && [[ "${#cmds[@]}" -gt 0 ]]; do
            local cmd="${cmds[0]}"
            cmds=("${cmds[@]:1}")

            bash -c "$cmd" &
            jobs+=($!)
        done

        local job="${jobs[0]}"
        jobs=("${jobs[@]:1}")

        local state="$(ps -p $job -o state= 2>/dev/null)"

        if [[ "$state" == "D" ]] || [[ "$state" == "Z" ]]; then
            $callback $job
        else
            wait $job
            $callback $job $?
        fi
    done
}

И пример использования:

function job_done {
    if [[ $# -lt 2 ]]; then
        echo "PID $1 died unexpectedly"
    else
        echo "PID $1 exited $2"
    fi
}

cmds=( \
    "echo 1; sleep 1; exit 1" \
    "echo 2; sleep 2; exit 2" \
    "echo 3; sleep 3; exit 3" \
    "echo 4; sleep 4; exit 4" \
    "echo 5; sleep 5; exit 5" \
)

# cpus="$(getconf _NPROCESSORS_ONLN)"
cpus=3
run_parallel_jobs $cpus "job_done" "${cmds[@]}"

Результат:

1
2
3
PID 56712 exited 1
4
PID 56713 exited 2
5
PID 56714 exited 3
PID 56720 exited 4
PID 56724 exited 5

Для обработки выходных данных каждого процесса $$ может использоваться, например, для входа в файл:

function job_done {
    cat "$1.log"
}

cmds=( \
    "echo 1 \$\$ >\$\$.log" \
    "echo 2 \$\$ >\$\$.log" \
)

run_parallel_jobs 2 "job_done" "${cmds[@]}"

Выходной сигнал:

1 56871
2 56872

Вы можете использовать простой вложенный цикл for (подставьте соответствующие целые числа для N и M ниже):

for i in {1..N}; do
  (for j in {1..M}; do do_something; done & );
done

Это выполнит do_something N * M раз в M раундов, каждый раунд выполняет N заданий параллельно. Вы можете сделать N равным количеству процессоров, которые у вас есть.

Вот как мне удалось решить эту проблему в bash-скрипте:

 #! /bin/bash

 MAX_JOBS=32

 FILE_LIST=($(cat ${1}))

 echo Length ${#FILE_LIST[@]}

 for ((INDEX=0; INDEX < ${#FILE_LIST[@]}; INDEX=$((${INDEX}+${MAX_JOBS})) ));
 do
     JOBS_RUNNING=0
     while ((JOBS_RUNNING < MAX_JOBS))
     do
         I=$((${INDEX}+${JOBS_RUNNING}))
         FILE=${FILE_LIST[${I}]}
         if [ "$FILE" != "" ];then
             echo $JOBS_RUNNING $FILE
             ./M22Checker ${FILE} &
         else
             echo $JOBS_RUNNING NULL &
         fi
         JOBS_RUNNING=$((JOBS_RUNNING+1))
     done
     wait
 done

Мое решение всегда поддерживать заданное количество запущенных процессов, отслеживать ошибки и обрабатывать процессы ubnterruptible / zombie:

function log {
    echo "$1"
}

# Take a list of commands to run, runs them sequentially with numberOfProcesses commands simultaneously runs
# Returns the number of non zero exit codes from commands
function ParallelExec {
    local numberOfProcesses="${1}" # Number of simultaneous commands to run
    local commandsArg="${2}" # Semi-colon separated list of commands

    local pid
    local runningPids=0
    local counter=0
    local commandsArray
    local pidsArray
    local newPidsArray
    local retval
    local retvalAll=0
    local pidState
    local commandsArrayPid

    IFS=';' read -r -a commandsArray <<< "$commandsArg"

    log "Runnning ${#commandsArray[@]} commands in $numberOfProcesses simultaneous processes."

    while [ $counter -lt "${#commandsArray[@]}" ] || [ ${#pidsArray[@]} -gt 0 ]; do

        while [ $counter -lt "${#commandsArray[@]}" ] && [ ${#pidsArray[@]} -lt $numberOfProcesses ]; do
            log "Running command [${commandsArray[$counter]}]."
            eval "${commandsArray[$counter]}" &
            pid=$!
            pidsArray+=($pid)
            commandsArrayPid[$pid]="${commandsArray[$counter]}"
            counter=$((counter+1))
        done


        newPidsArray=()
        for pid in "${pidsArray[@]}"; do
            # Handle uninterruptible sleep state or zombies by ommiting them from running process array (How to kill that is already dead ? :)
            if kill -0 $pid > /dev/null 2>&1; then
                pidState=$(ps -p$pid -o state= 2 > /dev/null)
                if [ "$pidState" != "D" ] && [ "$pidState" != "Z" ]; then
                    newPidsArray+=($pid)
                fi
            else
                # pid is dead, get it's exit code from wait command
                wait $pid
                retval=$?
                if [ $retval -ne 0 ]; then
                    log "Command [${commandsArrayPid[$pid]}] failed with exit code [$retval]."
                    retvalAll=$((retvalAll+1))
                fi
            fi
        done
        pidsArray=("${newPidsArray[@]}")

        # Add a trivial sleep time so bash won't eat all CPU
        sleep .05
    done

    return $retvalAll
}

Использование:

cmds="du -csh /var;du -csh /tmp;sleep 3;du -csh /root;sleep 10; du -csh /home"

# Execute 2 processes at a time
ParallelExec 2 "$cmds"

# Execute 4 processes at a time
ParallelExec 4 "$cmds"

$DOMAINS = "список некоторых доменов в командах" для foo в some-command делай

eval `some-command for $DOMAINS` &

    job[$i]=$!

    i=$(( i + 1))

Выполнено

Домены=echo $DOMAINS |wc -w

для i в $ (seq 1 1 $Ndomains) выполните echo "подождите $ {job [$i]}" подождите "$ {job[$i]}" Выполнено

в этой концепции будет работать распараллеливание.важно то, что последняя строка eval - это '&' которая поместит команды в backgrounds.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow