Cadeia de Lexemas em Java dá errado saída.Precisa de ajuda (provavelmente uma solução fácil)

StackOverflow https://stackoverflow.com//questions/22016805

Pergunta

Meu código é, basicamente, para encontrar o número de palavras em uma seqüência de caracteres (Sim, realmente simples, mas não de trabalho).Eu tentei vários métodos e tentou alterar o código muito poucas vezes.Alguém pode explicar para a minha razão, este código não funciona e se é possível me dar um melhor/código de trabalho.

 StringTokenizer stspace = new StringTokenizer(sent, " .?");
    int nTokenSpace = stspace.countTokens();



    String mspace[] = new String[nTokenSpace];


    for(int i=0;i<nTokenSpace;i++)
    {
        mspace[i] = stspace.nextToken();


    }
  for(int i=0;i<nToken;i++)
    {
       String k = mspace[i];
       int freq = 0;
       for(int x=0;x<nTokenSpace;x++)
       {
           if(k==mspace[x])
           {
               freq++;
            }
        }
        System.out.println(k+"\t"+freq);
    }

A saída Necessária para "o Meu.O nome.É.Anon.É.Anon." deve ser

My  1
Name 1
Is 2
Anon 2

But I get 
My  1
Name    1
Is  1
Anon    1
Is  1
Anon    1

Tenho a sensação de que há um erro evidente aqui, mas eu só não vê-lo (necessita de novos olhos >.>)

Foi útil?

Solução

O seu erro está aqui:

if(k==mspace[x])

Você precisa usar

if (k.equals(mspace[x]))

para comparar Strings.

Se você não quiser que as duplicatas na saída, você pode adicionar suas fichas para um Set antes do loop:

Set<String> uniqueTokens = new LinkedHashSet<String>(Arrays.asList(mspace));
for (String k : uniqueTokens) {
    int freq = 0;
    for (int x = 0; x < nTokenSpace; x++) {
        if (k.equals(mspace[x])) {
            freq++;
        }
    }
    System.out.println(k + "\t" + freq);
}

Outras dicas

Comparação de Cadeias de caracteres

substituir

 if(k==mspace[x])
       {
           freq++;
        }

com

 if(k.equals(mspace[x]))
       {
           freq++;
        }

Você tem esta linha:

if(k==mspace[x])

Isso significa que você compare dois objetos e eles têm de ser exactamente a mesma referência na memória, não idênticos.O que você está procurando está entre dois objetos idênticos.Para fazer isso, você tem de comparar objetos com .equals(Object).

if (k.equals(mspace[x]))

Basta adicionar em outras respostas aqui, eu acredito que você também precisará remover duplicatas a partir da lista ou seus resultados serão ser assim:

My  1
Name    1
Is  2
Anon    2
Is  2
Anon    2

portanto, o seu se-bloco deve ser:

for(int i=0;i<nToken;i++)
{

   String k = mspace[i];

   if (k.equals(""))
       continue;

   int freq = 0;
   for(int x=0;x<nTokenSpace;x++)
   {
       if(k.equals(mspace[x]) )
       {
             freq++;
             mspace[x] = "";
        }
    }
    System.out.println(k+"\t"+freq);
}

Por que você não usar classes de coleção.Aqui está o código.

import java.io.*;
import java.util.*;
public class HelloWorld{

     public static void main(String []args)
     {
        String givenstring="My. Name. Is. Anon. Is. Anon.";
         String[] words=givenstring.split(" ");

         ArrayList<String> arr=new ArrayList<String>();
         for(int i=0;i<words.length;i++)
          arr.add(words[i]);

        while(arr.size()!=0)
         {

             String word=arr.get(0);
             int frequency=Collections.frequency(arr,word);
             arr.removeAll(Collections.singleton(word));
             System.out.println(word+frequency);
          }
     }
}

Espero que ajude..

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top