تجريد HTML من صفحة ويب وحساب تواتر الكلمة؟

https://stackoverflow.com/questions/207404

03-07-2019
|

سؤال

في رائع، كيف يمكنني الاستيلاء على صفحة الويب وإزالة العلامات HTML، الخ، وترك النص فقط الوثيقة؟ أود نتائج تصب مجموعة حتى أتمكن من بناء عداد كلمة تردد.

وأخيرا، اسمحوا لي أن أذكر مرة أخرى ان كنت تريد أن تفعل هذا في رائع.

المحلول

وعلى افتراض انك تريد أن تفعل هذا مع رائع (التخمين على أساس العلامة رائع)، ومن المرجح أن تكون إما بشكل كبير قذيفة النصي المنحى أو باستخدام مكتبات جافا النهج الخاص بك. في حالة قذيفة البرمجة وأنا أتفق مع moogs، وذلك باستخدام لينكس أو إي لنكس وربما كان أسهل طريقة للذهاب نحو ذلك. لولا ذلك نظرة على HTMLParser ونرى <لأ href = "http://pleac.sourceforge.net/ pleac_groovy / filecontents.html "يختلط =" نوفولو noreferrer "> معالجة كل كلمة في ملف (انتقل لأسفل للعثور على التعليمات البرمجية المتكررة ذات الصلة)

وربما كنت عالقا في العثور على يبس جافا للاستخدام مع رائع للإعراب HTML، كما أنه لا يبدو أن هناك أي يبس رائع لذلك. إذا كنت لا تستخدم رائع، ثم الرجاء الرد على اللغة المطلوبة، لأن هناك العديد من <لأ href = "http://www.google.com/search؟q=html+to+text" يختلط = "نوفولو noreferrer "> HTML إلى نص أدوات هناك، اعتمادا على ما اللغة التي نعمل فيها.

نصائح أخرى

إذا كنت ترغب في مجموعة من الكلمات برموز من HTML ثم لا يمكن لك مجرد تحليل ذلك مثل XML (يجب أن يكون XML صالح) والاستيلاء على جميع من النص بين العلامات؟ ماذا عن شيء من هذا القبيل:

def records = new XmlSlurper().parseText(YOURHTMLSTRING)
def allNodes = records.depthFirst().collect{ it }
def list = []
allNodes.each {
    it.text().tokenize().each {
        list << it
    }
}

ويمكنك استخدام الوشق متصفح الويب لبصق نص المستند وحفظه.

هل تريد أن تفعل ذلك تلقائيا؟ هل تريد تطبيق منفصل أن يفعل هذا؟ أو هل تريد مساعدة الترميز هو في التطبيق الخاص بك؟ ما منصات (ويندوز سطح المكتب، خادم الويب، الخ) وانها تعمل على؟

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow