Les documents de document (seuls) sont-ils bons pour rechercher des documents?

https://stackoverflow.com/questions/5953619

07-11-2019
|

Question

Je pense actuellement à la meilleure façon de stocker des résultats de rampe Web dans une base de données. Dans une autre question, des bases de données axées sur les documents ont été recommandées pour être utilisées pour un projet de rampe Web: Base de données pour les robots Web en python?

Maintenant, je me demande si la carte / réduction est le bon moyen pour une telle classification et génération de valeur. Au moins, il semble être capable de faire de telles choses (carte pour la classification uniquement comme des années ou des auteurs, et cartographier / réduire pour calculer les valeurs numériques que je ne peux pas penser à un exemple pour le moment).

Cependant, Map-Reduce / DocumentStores pourrait-elle également me donner les bons documents pour un mot donné? Dans une base de données relationnelle, je devrais utiliser une jointure sur certaines tables, puis obtenir des documents contenant ces mots:

SELECT * FROM docs d 
JOIN doc_words dw ON dw.doc_id = d.id 
JOIN words w ON dw.word_id = w.id 
WHERE w.word = 'foo'

Je suppose que DocumentStores ne sont pas capables d'une telle opération car ils ne prennent pas en charge l'index FullText et ne sont pas destinés à avoir de nombreuses références / relations.

La meilleure alternative mélangerait-elle plusieurs systèmes? Par exemple, pour la recherche par des mots, une pour rechercher par différentes valeurs si elle est présente (comme l'année de publication, auteur,…)? Je pense que les documents de document ne sont pas si mauvais pour le stockage des métadonnées, car parfois il existe des valeurs spécifiques et parfois pas (et des documents sont faciles à utiliser sur plusieurs serveurs si vous le souhaitez, dès qu'il y a trop de documents pour un serveur). Pourtant, je ne sais pas quelle serait la meilleure façon d'implémenter la recherche d'une collection de documents (y compris les pages Web, les PDF, les images, qui ont toujours des méta-données différentes, mais ont souvent besoin également d'index de texte complet).

Pour faire une question claire: dois-je utiliser un autre système de base de données avec DocumentStores, utiliser les documents seuls (comment rechercher des mots rapidement?) Ou un autre système DB seul?

PS: Un autre exemple pour un tel problème serait le lien entre les pages Web, qui ne peut pas non plus être enregistrée dans DocumentStores. Cependant, OrientDB pourrait résoudre ce problème car il semble combiner la base de données de graphiques et la base de données axée sur le document.

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow