Integração Hive com Mahout para recomendação

https://stackoverflow.com//questions/22050460

21-12-2019
|

Pergunta

Quero usar o mahout com o Hive, obterei dados do Hive e usarei o modelo de dados para preencher os dados e usar o mahout para recomendação.Isso é possível.porque vi que o mahout está funcionando apenas para arquivos.1) como carregar dados para o mahout usando a tabela Hive?2) existe alguma outra maneira de usar a recomendação do mahout com o Hive ou outros?

aqui estou tendo o resultado jdbc do hive, quero preencher o DataModel no mahout.como preencher?

quero usar o resultado do banco de dados em vez de ler o arquivo para recomendação do mahout.por exemplo :

colmeia:

    import java.sql.SQLException;
    import java.sql.Connection;
    import java.sql.ResultSet;
    import java.sql.Statement;
    import java.sql.DriverManager;

    public class HiveJdbcClient {
      private static String driverName = "org.apache.hive.jdbc.HiveDriver";

      /**
       * @param args
       * @throws SQLException
       */
      public static void main(String[] args) throws SQLException {
          try {
          Class.forName(driverName);
        } catch (ClassNotFoundException e) {
          // TODO Auto-generated catch block
          e.printStackTrace();
          System.exit(1);
        }
        //replace "hive" here with the name of the user the queries should run as
        Connection con = DriverManager.getConnection("jdbc:hive2://localhost:10000/default", "hive", "");
        Statement stmt = con.createStatement();
        String tableName = "testHiveDriverTable";
        stmt.execute("drop table if exists " + tableName);
        stmt.execute("create table " + tableName + " (key int, value string)");
        // show tables
        String sql = "show tables '" + tableName + "'";
        System.out.println("Running: " + sql);
        ResultSet res = stmt.executeQuery(sql);
        if (res.next()) {
          System.out.println(res.getString(1));
        }
           // describe table
        sql = "describe " + tableName;
        System.out.println("Running: " + sql);
        res = stmt.executeQuery(sql);
        while (res.next()) {
          System.out.println(res.getString(1) + "\t" + res.getString(2));
        }

        // load data into table
        // NOTE: filepath has to be local to the hive server
        // NOTE: /tmp/a.txt is a ctrl-A separated file with two fields per line
        String filepath = "/tmp/a.txt";
        sql = "load data local inpath '" + filepath + "' into table " + tableName;
        System.out.println("Running: " + sql);
        stmt.execute(sql);

        // select * query
        sql = "select * from " + tableName;
        System.out.println("Running: " + sql);
        res = stmt.executeQuery(sql);
        while (res.next()) {
          System.out.println(String.valueOf(res.getInt(1)) + "\t" + res.getString(2));
        }

        // regular hive query
        sql = "select count(1) from " + tableName;
        System.out.println("Running: " + sql);
        res = stmt.executeQuery(sql);
        while (res.next()) {
          System.out.println(res.getString(1));
        }
      }
    }

cornaca:

// Create a data source from the CSV file
File userPreferencesFile = new File("data/dataset1.csv");
DataModel dataModel = new FileDataModel(userPreferencesFile);

UserSimilarity userSimilarity = new PearsonCorrelationSimilarity(dataModel);
UserNeighborhood userNeighborhood = new NearestNUserNeighborhood(2, userSimilarity, dataModel);

// Create a generic user based recommender with the dataModel, the userNeighborhood and the userSimilarity
Recommender genericRecommender =  new GenericUserBasedRecommender(dataModel, userNeighborhood, userSimilarity);

// Recommend 5 items for each user
for (LongPrimitiveIterator iterator = dataModel.getUserIDs(); iterator.hasNext();)
{
    long userId = iterator.nextLong();

    // Generate a list of 5 recommendations for the user
    List<RecommendedItem> itemRecommendations = genericRecommender.recommend(userId, 5);

    System.out.format("User Id: %d%n", userId);

    if (itemRecommendations.isEmpty())
    {`enter code here
        System.out.println("No recommendations for this user.");
    }
    else
    {
        // Display the list of recommendations
        for (RecommendedItem recommendedItem : itemRecommendations)
        {
            System.out.format("Recommened Item Id %d. Strength of the preference: %f%n", recommendedItem.getItemID(), recommendedItem.getValue());
        }
    }
 }

Solução

Mahout versão 0.9 fornece modelo de dados (dados de origem) para bancos de dados de reclamação JDBC, como MySQL/Oracle/Postgress etc, bancos de dados NoSQL, como MongoDB/HBase/Cassandra e sistema de arquivos baseado como você mencionou.

A partir desta versão, o Hive não é um banco de dados 100% padrão SQL, o modelo de dados MySQLJDBCDataModel e SQL92JDBCDataModel não é apropriado para uso nas tabelas Hive, pois a sintaxe SQL é bastante diferente nos bancos de dados de reclamação JDBC.

Para sua primeira pergunta, você pode querer estender o ResumoJDBCDataModel e substituir o construtor para passar a fonte de dados do Hive e consultas SQL específicas do Hive para preferência, tempo de preferência, usuário, todos os usuários, etc., semelhante ao mencionado no construtor AbstractJDBCDataModel.

Para sua segunda pergunta, o método acima é válido se você estiver usando o algoritmo não distribuído (algoritmos de sabor).Se o algoritmo distribuído for usado, o Mahout pode ser executado no Hadoop, obtendo os arquivos HDFS que são apoiados pela tabela Hive.Por favor, veja aqui sobre como executar o Mahout no Hadoop

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow