MOSS 2007 Crawl

https://stackoverflow.com/questions/101182

01-07-2019
|

Pergunta

Eu estou tentando obter rastreamento para o trabalho em duas propriedades distintas que eu tenho, mas não pode fazê-lo funcionar em qualquer um. Ambos têm dois WFE do com um WFE adicional configurado como um servidor de indexação. Há mais um servidor dedicado para consulta e dois servidores de back-end em cluster SQL 2005 para o banco de dados. Tenho tentou sem sucesso pelo menos 50 diferentes sites que eu encontrei com soluções de um motor de busca. Tenho configurado (extended) meu Web App para usar http: // servername: 12345 como a zona padrão e http://abc.companyname.com como as zonas aduaneiras e intranet. Quando eu entro cada um desses na fonte de conteúdo e, em seguida, tentar executar um rastreamento, recebo um par de erros no log de rastreamento:

http: // servername: 12345 retornos :
"Não foi possível conectar ao servidor. Por favor, verifique se o site é acessível."

http://abc.companyname.com retornos:
"Excluído pelo coletor. (O endereço de início ou fonte de conteúdo que contém este item foi eliminado e, portanto, este item foi excluído.)"

No entanto, eu posso clicar tanto URL do e a página está acessível.

Todas as idéias?

Mais informações:

Limpei a ardósia limpa, por assim dizer, e correu outra rastreamento para fornecer uma amostra atualizado.

As minhas fontes de conteúdo são como tal:

http: // servername: 33333
http://sharepoint.portal.fake.com
sps3: // servername: 33333

Meus erros de log de rastreamento atuais são:

sps3: // servername: 33333
Erro no PortalCrawl Web Service.

http: // servername: 33333 / MySites
Conteúdo para este URL é excluído pelo servidor porque um atributo sem índice.

http: // servername: 33333 / MySites
Rastos

sts3: // servername: 33333 / contentdbid = {62a647a ...
Rastos

sts3: // servername: 33333
Rastos

http: // servername: 33333
Rastos

http://sharepoint.portal.fake.com
O rastreador não poderia comunicar com o servidor. Verifique se o servidor está disponível e que o acesso firewall está configurado corretamente.

Eu dobro verificado para erros de digitação acima e eu não vejo nenhum modo que este deve ser um reflexo preciso.

Solução

Uma coisa a lembrar é que rastrear sites do SharePoint é diferente de rastreamento compartilhamentos de arquivos ou sites não-SharePoint.

Algumas outras dicas rápidas:

o sps3: protocolo é para rastrear os perfis de usuário para Pessoas Search. Você pode desconsiderar qualquer coisa que o rastreador diz sobre isso até que esteja pronto para perfis de usuário.
sua conta de rastreamento é suposto ter acesso a toda a sua fazenda. Se você ver erros de permissão, encontrar o artigo KB que indica o como repor a sua conta de rastreamento (é um comando específico stsadm.exe). Se você está tentando rastrear o conteúdo de outra fazenda, então você vai ter que trabalhar mais alguma coisa fora para conceder o acesso à conta rastreamento. Acho que este é o seu maior problema atualmente.
O rastreador (em execução do servidor de indexação) tentará visitar o URL público. Eu tive problemas de comunicação inter-servidor antes; certificar-se de todos os três servidores pode pingar um ao outro, e certifique-se o servidor de indexação pode chegar ao URL público (aberto IE no servidor de indexação e check-out). Se você tiver problemas, é hora de sujar arquivo hosts do seu servidor de indexação. Isso é algo SharePoint faz para você de qualquer maneira, por isso não se sentir muito mal fazendo isso. Se você configurar nada além de autenticação integrada do Windows, você vai ter que trabalhar mais para obter o seu trabalho rastreador.

De qualquer forma, tem havido um monte de idas e vindas nas respostas, por isso estou apenas shotgunning um monte de sugestões lá fora, talvez um deles está no alvo.

Outras dicas

Estou um pouco confuso sobre a topologia do farm. A máquina instalada como apenas um WFE não pode ser um indexador. Uma máquina instalada como "completo" pode ser um indexador, consulta e / ou um wfe ...

Além disso, em vez de alterar a conta de acesso de conteúdo padrão, você pode querer adicionar uma regra de rastreamento vez (uma vez que tudo está instalado e funcionando)

Você pode ver se alguma coisa útil é na% commonprogramfiles% / microsoft servidor compartilhado / web extensões / 12 / logs em seu indexador?

O arquivo de log pode ser um pouco detalhado, você pode procurar por "começou" ou "cheio" e que, geralmente, poderá ir para a linha no log onde o rastreamento começou.

Além disso, em sua máquina sql, você pode ser capaz de obter mais informações da tabela MSScrawlurlhistory.

Você pode criar uma fonte de conteúdo para http://www.cnn.com e iniciar um rastreamento completo ? Você obter o mesmo erro (s)?

Além disso, nós pode querer tomar esta desligada, deixe-me saber se você quiser fazer isso.

Eu não tenho certeza se há uma maneira de enviar mensagens privadas via stackoverflow embora.

A maioria de seus problemas estão relacionados a Kerberos, que parece. Se você não tem a atualização de infra-estrutura aplicada, então Sharepoint não será capaz de usar autenticação Kerberos para web sites w / não (80/443) portas padrão. Isso é também porque (eu apostaria) que você não pode acessar CA do servidor 5 quando está no servidor 4. Se você não tem os SPN configurado corretamente, em seguida, CA só será acessível a partir da máquina em que está instalado. Se você tinha instalado Sharepoint usando a porta 80 como a url padrão você seria capaz de fazer o rastreamento local do SharePoint sem problemas. Mas pelo design dos sites do SharePoint locais rastejar usa a URL padrão para acessar os sites do SharePoint. Confira http://codefrob.spaces.live.com/blog/ CNS! 7C69E7B2271B08F6! 363.entry para um pouco mais detalhadamente sobre como obter Kerberos & Sharepoint para funcionar bem juntos.

Nos Serviços de seção Servidor verificar as propriedades para a conta de rastreamento de pesquisa para certificar-se ele está configurado, e que tem permissões para acessar esses sites.

Obrigado pela nova entrada!

Então eu voltei do meu fim de semana e eu queria ir através de seus ponteiros e tentar cada um e, em seguida, apresentar um relatório sobre como eles não funcionou e, em seguida, publicar os resultados que eu tenho. coisa engraçada aconteceu, no entanto.

Fui para o meu indexador (servername5) e eu tentei ligar a Central Admin eo principal portal de Internet Explorer. Nem funcionou. Então eu fui para o IIS no ther indexador para tentar navegar para o portal principal de dentro do IIS. Isso não quer trabalhar e recebi um erro dizer-me que alguma coisa estava usando essa porta. Então eu vi meu antigo website da compilação anterior e eu excluí-la a partir do IIS junto com o pool de aplicativos correspondente. Então eu comecei a Piscina App para o web site da nova compilação e navegado para o site. Sucesso. Então eu consultei o site a partir do navegador no meu próprio PC. Sucesso novamente. Então eu corri um rastreamento pela URL completo, não o nome do servidor, assim:

http://sharepoint.portal.fake.com

Sucesso novamente. Ele arrastou todo o portal, incluindo os subsites exatamente como eu queria. Os "Itens no índice" povoada rapidamente e eu poderia dizer que eu estava rolando.

Eu ainda não pode acessar o site da Administração Central hospedado em servername4 de servername5. Eu não sei por que não, mas eu não sei que isso importe muito neste momento.

Onde é que isto me deixa? Qual foi a correção?

Eu ainda não tenho certeza. Talvez fosse a reconstruir. Talvez assim que reconstruiu o farm de servidores que eu tinha tudo que eu precisava para obtê-lo para o trabalho, mas ele simplesmente não iria funcionar por causa do website anterior ainda no IIS. (É engraçado como desleixado a-instalar un SharePoint pode ser. Eliminação manual dos bancos de dados de conteúdo, sites e pools de aplicativos parece ser necessário e que, provavelmente, não deve ser o caso.)

Em qualquer caso, ele está trabalhando agora na minha fazenda "teste" para a chave é começar a trabalhar na fazenda de produção. Estou esperançoso de que isso não vai ser tão difícil depois desta experiência.

Obrigado pela ajuda de todos!

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow