勧告のためのMahoutとの統合ハイブ
-
21-12-2019 - |
質問
ハイブでMahoutを使用したいのですが、私はハイブからのデータを取得し、データモデルを使用してデータを入力し、推奨さを誤って使用します。これが可能ですか。Mahoutがファイルにのみ働いているのを見たことがありますので。1)ハイブテーブルを使用してMahoutにデータをロードする方法は?2)ハイブや他の人が推薦された推薦を使用できる他の方法はありますか?
ここでは、JDBCの結果を持っています、私はMahoutのDataModelに移入したいです。
を入力する方法Mahout勧告のためにファイルから読み取る代わりにデータベース結果を使用したいと思います。 例えば:
ハイブ:
import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;
public class HiveJdbcClient {
private static String driverName = "org.apache.hive.jdbc.HiveDriver";
/**
* @param args
* @throws SQLException
*/
public static void main(String[] args) throws SQLException {
try {
Class.forName(driverName);
} catch (ClassNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
System.exit(1);
}
//replace "hive" here with the name of the user the queries should run as
Connection con = DriverManager.getConnection("jdbc:hive2://localhost:10000/default", "hive", "");
Statement stmt = con.createStatement();
String tableName = "testHiveDriverTable";
stmt.execute("drop table if exists " + tableName);
stmt.execute("create table " + tableName + " (key int, value string)");
// show tables
String sql = "show tables '" + tableName + "'";
System.out.println("Running: " + sql);
ResultSet res = stmt.executeQuery(sql);
if (res.next()) {
System.out.println(res.getString(1));
}
// describe table
sql = "describe " + tableName;
System.out.println("Running: " + sql);
res = stmt.executeQuery(sql);
while (res.next()) {
System.out.println(res.getString(1) + "\t" + res.getString(2));
}
// load data into table
// NOTE: filepath has to be local to the hive server
// NOTE: /tmp/a.txt is a ctrl-A separated file with two fields per line
String filepath = "/tmp/a.txt";
sql = "load data local inpath '" + filepath + "' into table " + tableName;
System.out.println("Running: " + sql);
stmt.execute(sql);
// select * query
sql = "select * from " + tableName;
System.out.println("Running: " + sql);
res = stmt.executeQuery(sql);
while (res.next()) {
System.out.println(String.valueOf(res.getInt(1)) + "\t" + res.getString(2));
}
// regular hive query
sql = "select count(1) from " + tableName;
System.out.println("Running: " + sql);
res = stmt.executeQuery(sql);
while (res.next()) {
System.out.println(res.getString(1));
}
}
}
.
Mahout:
// Create a data source from the CSV file
File userPreferencesFile = new File("data/dataset1.csv");
DataModel dataModel = new FileDataModel(userPreferencesFile);
UserSimilarity userSimilarity = new PearsonCorrelationSimilarity(dataModel);
UserNeighborhood userNeighborhood = new NearestNUserNeighborhood(2, userSimilarity, dataModel);
// Create a generic user based recommender with the dataModel, the userNeighborhood and the userSimilarity
Recommender genericRecommender = new GenericUserBasedRecommender(dataModel, userNeighborhood, userSimilarity);
// Recommend 5 items for each user
for (LongPrimitiveIterator iterator = dataModel.getUserIDs(); iterator.hasNext();)
{
long userId = iterator.nextLong();
// Generate a list of 5 recommendations for the user
List<RecommendedItem> itemRecommendations = genericRecommender.recommend(userId, 5);
System.out.format("User Id: %d%n", userId);
if (itemRecommendations.isEmpty())
{`enter code here
System.out.println("No recommendations for this user.");
}
else
{
// Display the list of recommendations
for (RecommendedItem recommendedItem : itemRecommendations)
{
System.out.format("Recommened Item Id %d. Strength of the preference: %f%n", recommendedItem.getItemID(), recommendedItem.getValue());
}
}
}
. 解決
Mahoutバージョン0.9は、MySQL / Oracle / PostgressなどのJDBCクレームデータベースのデータモデル(ソースデータ)を提供しています.MongoDB / HBase / Cassandra、ファイルシステムなどのNOSQLデータベース、およびファイルシステムなどのNOSQLデータベース。
このリリースの時点で、ハイブは100%SQL標準データベースではありません。データモデル mysqljdbcdatamodel とSQL92JDBCDataModelは、SQLとしてのハイブテーブルに使用するのに適していません。構文はJDBCの苦情データベースがかなり異なります。
あなたの最初の質問のために、あなたは AbstractJdbcDataModel と、Hiveデータソースとハイブ固有のSQLクエリを渡すようにコンストラクタをオーバーライドします。要約jdbcdataModelコンストラクターに記載されているものと同様の、嗜好時間、ユーザー、すべてのユーザーなど。
あなたの2番目の質問のために、上記の方法は、あなたが非分散アルゴリズム(味のアルゴリズム)を使用しているならば、良い方法を保持します。分散アルゴリズムが使用されている場合、MahoutはHOUOOPファイルをハイブテーブルにバックアップするHDFSファイルを調停することができます。