Pergunta

Nos ouvidos de trabalhar em várias equipes, eu conheci vários gestores de infra-estrutura que instituiu uma política de reinicialização do servidor semanais. Como um desenvolvedor, eu sempre fui contra a política - parece que este é um truque para contornar bugs de software e instabilidades de hardware, em vez de corrigi-los

.

O que são as opiniões das pessoas, pontos positivos e negativos sobre a política?

Foi útil?

Solução

Se você reiniciar seus servidores, ocasionalmente, você pode ter certeza que eles vão voltar para cima. Embora sons semanais como um exagero sério, eu já vi esse problema em máquinas Linux com longas uptimes.

Alguém não se preocupou em criar um serviço crítico para iniciar automaticamente na inicialização. Ou a ordem de serviços chegando é errado. Ou alguém bibliotecas, acrescentou / software removido, etc. atualizado e os executáveis ??obras já não (foi iniciado com as antigas bibliotecas, e continuou a usá-los, agora recebe um erro de vinculador dinâmico). Ou ele sair serviço Um depende do serviço B e B serviço depende do serviço A (oops).

Em algum momento, quando você menos quiser, você terá uma reinicialização. O colo vai cair o poder em você; fontes de alimentação do servidor irá falhar; alguém vai puxar o cabo / apertar o botão de reset no servidor errado; etc. Agora, quando você pode pagar menos tempo de inatividade, o servidor sangrenta não vai voltar para cima.

Assim como software, configurações do sistema precisam de testes. Quantas vezes você precisa fazer este teste depende de como suas caixas são administrados.

Outras dicas

Esta é uma política tola.

Aqui está o porquê:

  • Se você precisa reiniciar um semanário servidor (e de alguma forma contribui para a estabilidade da sua infra-estrutura), você está encobrindo o verdadeiro problema com um servidor ou seu software. Um vazamento de memória? Um mau motorista? A solução para estes problemas são de correção -los, não cobri-los com uma política de preguiçoso.

  • Servidores muitas vezes se reinicializado para atualizações, pelo menos no mundo Windows. Reiniciando para atualizações do kernel críticos acontecer de qualquer maneira.

  • Servidores de banco de dados Caché um monte de informações na RAM. Quando você reiniciar o servidor, esse cache fica vazia e muito frio. Supondo que você tenha um padrão de uso típico, um frio, esvaziar cache irá resultar em desempenho lento para os usuários quando eles tentam suas consultas após uma reinicialização. É pode também aumentam o tempo necessário para realizar alguns tipos de manutenção, como backups porque o disco pode precisar ser acessado mais.

  • Seus servidores ir para baixo! Suas janelas de manutenção para backups e outras coisas se encurtado porque o servidor está fora por algum período diferente de zero de tempo. Você também pode acabar tendo de dizer a seus usuários que você terá tempo de inatividade, dependendo da arquitetura de seus sistemas.

  • Supondo que você tenha algum tipo de sistema de notificação de alerta, você terá que configurá-lo para ignorar a janela de tempo de inatividade. Isso pode mascarar problemas que acontecem em todo o tempo que seus reinicialização do servidor, e acrescenta que a quantidade de configuração que você precisa fazer em seus servidores.

Dito isto, é reiniciado às vezes são benéficas como um último recurso sobre os recursos que você não necessariamente tem total controle sobre fornecedores escrita de software de idade, dispositivos ( "caixa preta" quando explicitamente prescritos pelo fornecedor, etc ... ). Mas isso deve ser tratado em uma base caso a caso, e não com uma política de cobertor ingênuo.

Desculpas para tirar a poeira de uma discussão antiga.

Eu acho que todo mundo perdendo o ponto, especialmente a die-hard 'reinicialização? Eu prefiro vender minha comodoro!' admins nix.

O ponto é que uma janela semanal deve ser agendada. não significa que ele tem que ser usado, de fato a preferência é que ele não é usado como ele é, inevitavelmente, em alguma hora abandonado da manhã.

Mas se ele está lá, você pode usá-lo.

Pessoalmente, acho que uma reinicialização trimestral é uma idéia muito boa - ele pode lhe dar um heads-up sobre problemas (hardware e software), e como o outro cartaz mais para a frente pensando apontou, faz você ciente das mudanças que impedem suavizar inicialização que só se tornam visíveis após uma reinicialização. Ao invés de ter a situação surgir após um corte de energia 4h quando se toma mais de 2 horas para trazer sua caixa se torna realmente bastante embaraçoso ....

Existem outros upsides ..

  • Ela recebe o gerenciamento usado para reboots, e você tem a sua confiança quando você realmente precisa de um reboot (por exemplo, movendo-o fisicamente). Se você nunca reiniciar uma caixa, do seu gerente vai ser bastante enervante nervoso quando você diz que precisa reiniciar após 4yrs e sem tempo de inatividade.

  • Você se acostumar com reboots, e saber o que pode \ faz de errado ir quando é offline.

  • Você sabe quanto tempo reboots tomar, assim quando ele vai voltar para cima e leva 10 minutos mais que o normal, você é direto para os logs.

  • Se você é derrubado por um ônibus amanhã, há atual (e não 4 anos de idade) a documentação sobre o que acontece quando uma reinicialização ocorre (supondo que você é um administrador bom e escrever as coisas)

  • A reinicialização 30 minutos por fits trimestre bem dentro de 99,9% do SLA.

  • Finalmente ele limpa as teias de aranha proverbial.

Para responder a alguns pontos contra reinicialização normal ..

  • A única sobre encobrir um mau condutor \ memória vazamento etc é hilário. Como você sabe que é um vazamento de memória \ mau condutor a menos que você reiniciar o servidor? Não só isso, mas o que se você não conseguir corrigi-lo em seu tempo de inatividade planejado? Se você tem uma janela programada semanal não é nenhum problema! Você apenas tentar novamente na próxima semana ....

  • Sistema de Notificação - Se você tem uma janela de planeamento, você pode definir uma exceção planejado. Se o seu software \ script não fizer isso, então eu sugiro software moderna \ melhor roteiro escrito.

  • Quanto aos problemas janela exceção esconderijos planejadas que 'acontecem a ocorrer durante a janela de exceção planejada' isso é apenas ridículo. Suas outras estatísticas do servidor irá mostrar esta questão muito rapidamente se você revê-los em tudo.

É claro que uma política de cobertor não é recomendado, e você deve ter critérios para exceções (por exemplo, espaço em disco sobre um determinado tamanho etc)

Dito isto, a linha inferior é só porque o servidor não precisa ser reiniciado, é incrivelmente ingênuo pensar que você não deve reiniciá-lo ....

Editar:

Eu não tenho certeza que fiz este bastante clara, mas a reinicialização não deve ser usado para reboco sobre um problema. A janela deve ser semanal para que você tenha repetido as tentativas de resolver o problema, não 'viver com ele'.

A reinicialização como um método de lidar com um problema no servidor é pobre sysadmin. Nada é aprendido e desperdiça tempo precioso das pessoas e (com razão) reduz opinião de vocês da administração.

Meu ponto é

  • É difícil garantir que você resolver um problema sem uma aceito, programada janela de manutenção semanal no lugar.
  • Com uma janela semanal você tem uma oportunidade contínua para as coisas classificar corretamente, e evitar a situação onde você tem soluções alternativas meia-dúzia jerry-equipado em tantos servidores diferentes.

Respondendo a minha própria pergunta: Um dos benefícios que eu vejo da política é quando ele é aplicado a um cluster de servidor, e os processos são failover de um nó para outro. Dessa forma, todos os nós são constantemente testados para o software de instalação correto.

Nossos servidores são todos os servidores Linux no trabalho, e nós não nunca reiniciar e não tive quaisquer problemas. Concordo que é um hack na melhor das hipóteses, e eu também acho que provavelmente tem algo a ver com as primeiras pessoas resposta utilizado para sempre dar ao apoiar problemas do Windows: "Já reiniciado o seu computador"

Agora, a respeito de porque ele pode ser benéfico, você pode ter aplicações que entrar em um estado estranho ou que têm vazamentos de memória que uma reinicialização iria resolver.

Um grande negativo para mim é que você tem que agendar o tempo de inatividade semanal para os servidores. Para alguns isso não é um problema, e para os outros que é um enorme problema.

Obviamente, se a origem de um problema não pode ser resolvido em tempo hábil, ele tem de ser contornado. Agendamento de uma reinicialização para corrigi-lo é um caminho mais fácil para salvar o negócio se isso funciona.

Claro, é mentalmente dói e não deve ser necessário e que seria melhor para o trabalho contra uma tal solução, especialmente se um está no controle do software problemático ou em posição de cadela-tapa os produtores para uma correção ou simplesmente substituí-lo. Mas se não ..?

Lembro-me de fazê-lo para os servidores de um farm Citrix, no final, eles foram reiniciado todas as noites com uma espera de script complicado meio para os usuários a fazer logoff, logins para servidores específicos bloqueio e, em seguida, reiniciar os gratuitos. O motivo foi um 16bit aplicativo cliente 4GL velho que nós simplesmente não conseguia se livrar do que tendia a romper a capacidade de resposta geral do usuário depois de alguns dias de uptime.

Eu concordo que embora a maioria parece basear-se não ser inteligente o suficiente para descobrir a causa e corrigi-lo -. Nem toda a gente é bem versado em manutenção ou motivados quanto gostaríamos

É um hack realmente, mas pode ser o corte mais eficiente. É um problema 80:20 tipo onde você pode resolver 80% do problema com 20% do esforço. Se você pode sobreviver ao tempo de inatividade ou o tempo de inatividade custa menos do que realmente corrigir a causa raiz, então esta é uma boa solução. Eu, pessoalmente, não gosto, mas isso é só porque não é uma solução limpa.

Outra possibilidade a considerar é que em alguns ambientes, tais como lojas de varejo que estão abertos 24 horas por dia, uma "loja perto" evento para que os servidores podem ser atualizados, cópia de segurança, etc.

Mesmo que os servidores precisam executar "24x7", they'e realmente desligada por pelo menos alguns minutos todos os dias.

Isso efetivamente torna um servidor reiniciar todos os dias, mesmo que a loja ainda está em funcionamento quando isso acontece.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top