سؤال

وكنت أفكر في كتابة السيناريو PHP التي من شأنها أن تحليل المحتوى (أي حقل قاعدة البيانات) صفحة CMS'd ومن ثم لصناعة السيارات في توليد (X) HTML META وصف والكلمات الرئيسية والعلامات، ولكن كما هو الحال دائما وليس هناك نقطة إعادة اختراع العجلة ذلك أنا أتساءل إذا كان أي شخص يعرف مثل هذا حيوان صغير؟

والسابق أتصور أن يكون شيئا مثل التعابير المنطقية واضحة نسبيا للاستيلاء على الجملة الأولى أو اثنين، في حين أن هذا الأخير ينطوي ربما القضاء على الكلمات ضد الكلمات الشائعة، قاموس ومن ثم ترجيح التردد أو ما شابه ذلك.

هل كانت مفيدة؟

المحلول

والمشاكل كنت تفكر في ذات شقين: واحد من استخراج الكلمة واحدة من وثيقة تلخيص. الأولى، التي كنت الواضح استخدام الكلمات الرئيسية لديها نهج ساذج بسيط جدا: اختيار كلمة الأكثر شيوعا في محتوى ناقص كل كلمات الإيقاف (ينظر هذا الأمر في ويكيبيديا إذا كنت لا تعرف ما هي هذه). هناك العديد من الطرق المتقدمة، بما في ذلك ترجيح لإدراج المرادفات، والموقع في النص أو العلامات، وأكثر من ذلك. وهناك أمثلة قليلة من السهل مخطوطات استخراج الكلمات الرئيسية في PHP يمكنك تطبيق ربما دون عناء. مجرد بحث Google شيء من هذا القبيل "استخراج PHP الكلمة" وستجد المثال لا الحصر.

وأما المشكلة الثانية، من ناحية أخرى، هو أكثر قليلا من الصعب، ولا يزال مصدر الكثير من العمل الأكاديمي. كنت بحاجة تلخيص لدقيق جدا وصف العلامة الوصفية. انها في الواقع قد لا يكون يستحق وقتك إذا كنت لا تبحث عن مشروع AI طويلة النطاق التي قد لا تزال تؤتي ثمارها جامدة كما أو غير متماسكة. وهناك نهج آخر هو مجرد الكشف عن مجريات الأمور والذي يستخدم استخراج الكلمات الرئيسية: "هذه المقالة هي عن (أول الكلمة الأكثر شيوعا)، (الثاني الأكثر شيوعا الكلمة)، و (الكلمة الثالثة الأكثر شيوعا)." كنت على الأقل الحصول على منفعة من المناسب في بعض المحتويات في كل من الكلمة والوصف. إذا كنت ترغب في التخلص منه حتى، واستخدام بعض المرادفات بدلا من ذلك. هناك من وردنت ، ولكن أود أن اقترح الاستعانة بمصادر خارجية ل<ل أ href = "http://nltk.sf.net" يختلط = "نوفولو noreferrer"> اللغة الأدوات الطبيعية لبيثون لرفع الأحمال الثقيلة هناك، لأن معظم العمل يتم بالفعل بالنسبة لك.

وأود أن أتوقف لحظة قصيرة لتشجيع البحوث الخاصة بك في هذا المجال، وتجاهل naysaying من السيد Warnica. المعلومات الوصفية <م> هو المهم على حد سواء لتصنيف الوثائق واستخراج المعلومات في مجال البحث. سيكون من الحماقة ليس لديهم البيانات، وأنه هو، في الواقع، من المفيد أتمتة عليه لنظم إدارة المحتوى على نطاق واسع. حظا سعيدا مع ما تبذلونه من جهود.

نصائح أخرى

ومواسير ياهو حدة الأجل النازع يفعل شيئا من هذا القبيل إلى ما انت تريد. للأسف أنا لست على علم من مصدر لأنابيب حدات كونها مفتوحة.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top