كيفية كتابة مرشح البريد العشوائي

https://stackoverflow.com/questions/296579

08-07-2019
|

سؤال

أنا عالق في الاضطرار إلى كتابة مرشح البريد العشوائي البسيط ، لست متأكدًا حقًا من كيفية القيام بذلك.

لقد توصلت حتى الآن إلى قائمة الكلمات وتصفية النطاق، والتي ستمنح أو تزيل نقاطًا تصل إلى حد معين.

على سبيل المثال، إذا كنت تكتب عن "v1agr4" من نطاق مدرج في القائمة السوداء، فستحصل على نقطتين تقريبًا مقابل البريد العشوائي، ولكن إذا كنت تكتب عن "v1agr4" من حساب hotmail.com، فستحصل على نقطة واحدة فقط. "نقطة البريد العشوائي".

هل لديكم أي اقتراحات / موارد أخرى؟

يتعلق الأمر بتعلم عوامل تصفية البريد العشوائي أكثر من تطوير شيء ما على مستوى المؤسسة

المحلول

وبعض جيدة حقا معلومات خوارزمية هنا:

http://www.paulgraham.com/spam.html

http://www.paulgraham.com/better.html

ولكن، على محمل الجد، لماذا إعادة اختراع العجلة؟

ومجرد تحميل K9: http://keir.net/k9.html

نصائح أخرى

بعض مشاريع Java مفتوحة المصدر المتعلقة بتصفية البريد العشوائي الافتراضية (التي ذكرتها LFSR Consulting):

وواحد إضافي لـ C++:

SpamProbe

النظرية الافتراضية فلترة البريد المزعج .

وأنا أعلم بيرل لديه مكتبة لذلك، لذلك كنت تحمل من شأنه أن جافا يكون واحد أيضا.

ولقد كتبت واحدة مع جميع أجراس وصفارات .

ويمكنك تفويض بأن لخدمة الموزعة. أكيسمت هو حل جيد للغاية.

والكتابة فلتر البريد المزعج يعتمد على مطالبكم لتطويره.

إذا كنت تريد حلا للتحجيم، ثم المحتوى تصفية ربما لا الاختيار الذكي لجعل كما هو CPU جدا والذاكرة طويلا، وكنت بدلا من ذلك بدلا من اختيار إما تصفية تعتمد على السمعة أو التصفية على أساس القائمة السوداء، والتي سوف تكون الطريق المزيد من وحدة المعالجة المركزية ودية على الخادم الخاص بك وكذلك أسهل بكثير من الكتابة.

وكتبت وظيفة على بلدي بلوق أن يشرح الفكرة وراء كتابة فلتر البريد المزعج من وجهة مبرمج وجهة نظر، ويغطي جميع الخيارات من تصفية على المحتوى لتصفية السوداء على أساس القائمة.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow