Вопрос

Я заинтересован в том, чтобы найти предмет или тему случайных веб -страниц и связывать это с сущностью в базе данных RDF, такой как dbpedia. Я задавался вопросом, есть ли какие -либо инструменты/библиотеки, чтобы сделать это или кто -то пытался сделать что -то подобное раньше?

Это было полезно?

Решение

Поиск предмета веб -страницы, вероятно, ближе всего к Автоматическое обобщение (См. Страницу Омоничной Википедии). Одним из подзадач, используемых для этого, является извлечение Keyphrase (KE). KE вернет подстроки (фразы) из входного текста, который является важным/заметным/актуальным для этого текстового элемента. Если вы предполагаете, что названные объекты обычно являются ключом к предмету вашего входного текста, то распознавание объектов (NER), названное объектом (NER), будет еще одной возможной подтазой для того, что вы хотите. NER вернет подстроки, которые являются именами сущностей, наряду с типом сущности.

Из вашего описания кажется, что вы ищете больше, чем просто KE или NER, поскольку вы упоминаете о ссылке на базу знаний (KB), такой как DBPedia. Инструмент под названием Dbpedia Spotlight делает именно это. Вы можете настроить его, чтобы найти каждый ресурс dbpedia в входном тексте или только ключевые фразы, только названные объекты и т. Д. Все это при связи с Dbpedia в конце концов. Проверьте это: http://spotlight.dbpedia.org

Существуют другие инструменты, такие как Alchemiapi, Zemanta, Wikimachine, Evri, Headup, Enrycher и т. Д. Но, насколько я знаю, Dbpedia Spotlight является единственным, который является бесплатным, открытый исходный код (Apache V2) и позволяет настроить поведение Распознавание фразы и неоднозначности. (Отказ от ответственности: я соавтор Dbpedia Spotlight)

Другие советы

То, что вы по сути, после того, как это названный инструмент распознавания сущности. Есть ряд бесплатных и коммерческих услуг, таких как Алхимия API, Opencalais, Люпедия или по Земанта. Анкет У некоторых из моих коллег есть В блогах о их опыт работы с этими услугами.

Для взаимосвязанной части вы обычно используете рамки, такие как Шелк или же Лайма; очень скоро будет взаимосвязь в облаке Доступно через проект EC FP7 LATC. Отказ от ответственности: я координатор Project LATC, а шелк/лаймы-продукты членов консорциума LATC.

Virtuoso OpenLink уже делает это с помощью его Спел (Rdfizer) Мета-картриджи для Opencalais, Alchemy, Pingar и Dbpedia. Т.е. вы кормите ее страницей, он запрашивает вышеуказанные сайты для сущностей, он дает вам тройки на основе идентифицированных сущностей.

(Отказ от ответственности: я должен знать.)

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top