Идеи для создания системы управления документами

StackOverflow https://stackoverflow.com/questions/1014952

  •  06-07-2019
  •  | 
  •  

Вопрос

Клиенту нужен система управления документами и я собираю информацию об этом.

Я знаю о sharepoint и alfresco, но в данном случае я оцениваю необходимую информацию для ее создания с нуля, поэтому, пожалуйста, воздержитесь от предложений по использованию любого из них (мы оцениваем их отдельно, речь идет о разработке, а не о внедрении существующего решения).

Это требования:

  • У нас есть очень специфический запрос от юридического управления документов, специфичный для нашего местного правительства, но помимо этого:
  • Операция, аналогичная Google docs с точки зрения конечного пользователя
  • Нужна информация о магазине от более чем 200 конечных пользователей (ОБНОВИТЬ:На самом деле это +700 конечных пользователей)
  • В основном офисные документы, pdf, текст.У меня уже есть извлечение обычного текста из этих двоичных файлов.
  • Никакой вики, никакого создания портала, едва ли рабочий процесс, но очень простой, это всего лишь управление файлами
  • Центральное хранилище, общий доступ по всей компании, интегрированное с Active directory
  • Быстрый поиск
  • Прозрачная интеграция с рабочим столом
  • Веб- интерфейс
  • Мультиплатформенный, если это возможно

Итак, это то, что у меня на макушке:

  • Хранение:Я знаю, что sharepoint сохраняет все в базе данных (на открытом воздухе тоже?).Это кошмар, ИМХО.Я предпочитаю помещать метаданные в базу данных, а файлы - на диск.

Я подумываю о том, чтобы принудительно использовать ZFS в этом случае и использовать их возможности для управления версиями, моментальных снимков и масштабирования.Или, может быть, использовать git в качестве серверной части хранилища (git будет работать нормально?)

Итак, где я могу узнать больше о том, как обрабатывать большой пул документов в ZFS или любой другой обычной файловой системе?Например, как настроить структуру папок для удобства управления и быстрого реагирования, удобного резервного копирования и т.д.

  • Метаданные:Я думаю, что здесь обычная база данных, но интересно, есть ли больше возможностей сохранить все в Lucene (у меня есть некоторый опыт работы с Lucene, но я беспокоюсь, потому что Lucene не может быть объединен, верно?).

Если я использую поисковую систему в качестве базы данных метаданных, я могу сэкономить некоторую работу (не требуется второй проход для индексации), но обычный механизм базы данных более стандартен.

  • Технологии:Вероятно, я создам это в Django, PyLucene, Postgress и выполню интеграцию с оболочкой для Windows (у меня нет проблем с этим).

Я буду признателен за любые подсказки или информацию о том, как правильно реализовать это решение.

Это было полезно?

Решение

Лично я нахожу требования "похожие на Google Docs" и "Прозрачная интеграция с рабочим столом" немного расплывчатыми, ИМХО.Но, судя по вопросу, вас больше беспокоит серверная часть и хранилище документов, и вы больше смотрите на использование стека с более открытым исходным кодом (с интеграцией с AD)?

Во всяком случае, лично я использую Дерево знаний поскольку наша система управления документами и их реализация заключается в том, что все файлы хранятся в каталоге файлов, а база данных будет отслеживать путь, соответствующие метаданные, журналы доступа и информацию о версиях.В основном они сохраняли несколько версий одного и того же файла, если документ был обновлен - что, я думаю, было достаточно разумной идеей с точки зрения реализации, учитывая, что документы Microsoft Office в основном являются двоичными (вплоть до 2003 года).

Возможно, вы захотите понять, сколько документов у них есть в настоящее время и сколько документов они ожидают ежедневно загружать в эту систему.(Или, с другой точки зрения, какие документы они планируют хранить, как правило, дадут вам подсказки о том, какую нагрузку должен обрабатывать ваш сервер)

Я предполагаю, что, скорее всего, вам сойдет с рук настройка локальных файловых систем и базы данных, хранящих метаданные, если вы не уверены, что ожидается, что система будет ежедневно обрабатывать огромную нагрузку документов (представьте, что вы Flickr для документов ;) ).

Другие советы

  1. SharePoint и Alfresco - это платформы, на которых вы можете выполнять довольно много настроек, поэтому даже их использование действительно означает, что вы что-то создаете.

  2. SharePoint хранит большие двоичные объекты в базе данных по умолчанию, но есть способы поместить их в файловую систему

  3. Если вы создаете его самостоятельно, поддерживайте расширения frontpage, которые приложения Office используют для взаимодействия с SharePoint и Alfresco, и предоставляйте документы с правильными заголовками, которые сообщают IE о запуске приложения.Таким образом, вы получаете ту же интеграцию с приложениями Office, что и в SharePoint (пользователям действительно нравится эта функция) - это всего лишь простой протокол HTTP

  4. Если вы перейдете на SharePoint, моя компания как бесплатный просмотрщик документов который может просматривать PDF-файлы и скоро получит Office docs.Мы продаем базовую технологию, но это только для Windows.

  5. Я люблю Django и использую его для всех личных проектов, но я действительно думаю.NET и Java будут иметь больше сторонней поддержки для всего, что вам нужно, и большая часть вашего кода будет переносима в SharePoint или Alfresco, если вы решите пойти этим путем позже.

Редактировать:Дополнительная информация о # 3 по запросу

http://blogs.msdn.com/mikefitz/archive/2005/03/14/395112.aspx http://blogs.msdn.com/stcheng/archive/2008/12/17/wss-use-rpc-protocol-to-access-wss-v3-site.aspx Официальные документы:http://msdn.microsoft.com/en-us/library/ms442469.aspx

Отличным решением здесь должен стать выход на улицу.Он поддерживает все до единого из вашего списка требований, за исключением правительственных.

Но если вы строите "с нуля", может быть, хотя бы заимствуете идеи из этого?

Хранение:содержимое файла сохраняется в файловой системе.Простота управления, хранения, резервного копирования и прочего.Файлы, однако, не сохраняют имена, просто их содержимое сохраняется в двоичном формате, и файл называется как хэши (я полагаю, хэш содержимого?)

Метаданные:помещается в базу данных.Быстрый доступ, изменение, обновление и прочее.Каждый узел имеет свойства - это имя, заголовок, описание, даты, информация об аудите, все, что вам нужно.Это просто информация, и все это сохраняется в таблице "свойства".

Поиск:Alfresco использует Solr для поиска, раньше это был Lucene.У меня были довольно большие установки, и если вы разместите lucene index на SSD, он будет работать очень быстро.(lucene в любом случае работает быстро).Он индексирует как содержимое файла, так и свойства - так что вы очень быстро добираетесь до идентификатора узла.

В Alfresco реализован CIFS, а также webdav, ftp и еще много чего.Дело в том, что вы можете просто смонтировать его на рабочих столах пользователей в виде папок или дисков.

Веб-интерфейс есть, mgmt центрального репозитория есть, все требования есть.И поскольку это открытый исходный код, вы могли бы получить часть этого исходного кода и использовать его в своем проекте.Хотя было бы гораздо лучше принять участие в Сообществе Alfresco и просто внести свой вклад, если вы чувствуете себя нормально.

Вы пытаетесь создать систему управления документами?На свежем воздухе и SharePoint?Alfresco и SharePoint - это решения для управления проектами, а не для управления документами.Alfresco - это своего рода решение DMS, но в этом нет ничего хорошего.Да!Для решения по управлению проектами это хорошее программное обеспечение.

Я предлагаю вам приобрести решение для управления документооборотом, которое представляет собой юридическое управление документами, а также специфично для местных органов власти.Есть несколько поставщиков систем управления документами, таких как Laserfiche & OnBase, их работа похожа на Google Docs.Вы можете создать учетную запись для каждого сотрудника фирмы или бизнеса в целом.

Да, все документы представлены в формате MS Office, таком как Ms-Word, Ms-excel, PDF и PPT

Рабочий процесс с системой управления документами намного эффективнее и проще в обращении

Да, используя DMS, вы можете легко найти файл в течение нескольких минут (программе Laserfiche требуется 10 минут, чтобы извлечь файл или папку) Laserfiche DMs - это программное обеспечение с веб-интерфейсом.Вы можете войти в программное обеспечение и легко получить доступ к файлу или папке из разных мест

Хранение

В системе DMS все данные защищены и хранятся в облачном хранилище.Вы можете легко получить доступ к документу, просто войдя в свою учетную запись.В случае утери или каких-либо искажений вы можете получить утерянные данные от компании.

Метаданные

Система DMs является обычным ядром базы данных, поскольку все бизнес-данные регулярно хранятся в облачном хранилище

Технологии

Нет необходимости что-либо строить;вам нужно только приобрести программное обеспечение DMS.Я рекомендую вам Laserfiche, потому что мы пользуемся их услугами

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top