题
一位客户需要一个 文档管理系统 我正在建立有关此的信息。
我了解 sharepoint 和 alfresco,但在这种情况下,我正在评估从头开始构建它的必要信息,所以请不要建议使用其中任何一个(我们正在单独对它们进行评估,这都是关于开发的) ,不实施现有的解决方案)。
这是要求:
- 对我们当地政府特有的文件的法律管理有非常具体的要求,但除此之外:
- 从最终用户的角度来看类似于google docs的操作
- 需要 200 多个最终用户的商店信息(更新:确实有超过 700 个最终用户)
- 主要是office文档、pdf、文本。我已经从这个二进制文件中提取了纯文本。
- 没有wiki,没有创建门户,几乎没有工作流程,但非常简单,只是文件管理
- 中央存储库,在公司范围内共享,与 Active Directory 集成
- 快速搜索
- 透明桌面集成
- 网页界面
- 如果可能的话,多平台
所以,这就是我脑子里的事情:
- 贮存:我知道共享点将所有内容保存在数据库中(露天也是如此?)。恕我直言,那是一场噩梦。我更喜欢将元数据放在数据库中,将文件放在磁盘上。
我考虑在这种情况下强制使用 ZFS 并利用它们的版本控制、快照和扩展功能。或者也许使用 git 作为存储后端(git 可以正常工作吗?)
那么,我可以在哪里了解有关如何在 ZFS 或任何常规文件系统中处理大量文档的更多信息?例如,如何布局文件夹结构以方便管理、快速响应、方便备份等。
- 元数据:我想在这里使用常规数据库,但想知道是否有更多优点将所有内容保存在 Lucene 中(我对 Lucene 有一些经验,但担心 Lucene 无法联合,对吗?)。
如果我使用搜索引擎作为元数据数据库,我可以节省一些工作(不需要第二次索引),但常规数据库引擎更标准。
- 技术:我可能会在 Django、PyLucene、Postgress 中构建它,并为 Windows 进行 shell 集成(我这样做没有问题)。
我将感谢有关如何正确实施此解决方案的任何提示或信息。
解决方案
就我个人而言,我发现“类似于 Google Docs”和“透明桌面集成”要求有点模糊,恕我直言。但从问题来看,您更关心后端和文档存储,并且更多地关注使用更开源的堆栈(与 AD 集成)?
无论如何,我个人正在使用 知识树 因为我们的文档管理系统及其实现是所有文件都驻留在文件目录中,数据库将跟踪路径、相应的元数据、访问日志和版本控制信息。如果文档已更新,他们基本上会保留同一文件的多个版本 - 考虑到 Microsoft Office 文档大多是二进制的(直到 2003 年),我认为这是一个足够公平的想法。
您可能想了解他们当前拥有多少文档以及他们预计每天有多少文档流入该系统。(或者从不同的角度来看,他们计划存储什么样的文档通常会提示您服务器应该处理什么样的负载)
我的猜测是,您很可能可以不用设置本地文件系统和数据库来存储元数据,除非您确定系统预计每天都会处理大量文档(想象一下 Flickr 的文档; ))。
其他提示
SharePoint 和 Alfresco 是您可以进行大量自定义的平台,因此即使使用它们也确实意味着您正在构建一些东西。
SharePoint 默认将 blob 存储在数据库中, 但有办法把它们放在文件系统上
如果您自己制作,请支持 Office 应用程序用于与 SharePoint 和 Alfresco 通信的 Frontpage 扩展,并使用正确的标题来提供文档,以告诉 IE 启动应用程序。通过这种方式,您可以获得与 SharePoint 相同的 Office 应用程序集成(用户真的很喜欢这个功能)——它只是一个简单的 HTTP 协议
如果您选择 SharePoint,我的公司作为 免费文档预览器 可以查看 PDF,很快就会有 Office 文档。我们出售底层技术,但仅限于 Windows。
我喜欢 Django,并将其用于所有个人项目,但我确实认为 .NET 和 Java 将为您需要的东西提供更多第三方支持,并且如果您决定使用,您的大部分代码将可以移植到 SharePoint 或 Alfresco以后就这样。
编辑:根据要求提供有关 #3 的更多信息
http://blogs.msdn.com/mikefitz/archive/2005/03/14/395112.aspx http://blogs.msdn.com/st Cheng/archive/2008/12/17/wss-use-rpc-protocol-to-access-wss-v3-site.aspx 官方文档:http://msdn.microsoft.com/en-us/library/ms442469.aspx
露天应该是一个很好的解决方案。除了政府事务之外,它支持您的每一项要求。
但如果你是“从头开始”构建,也许至少可以从中汲取想法?
贮存:文件内容保存在文件系统上。易于管理、存储、备份等。这些文件不保留名称,只是它们的内容以二进制格式保存,并且文件被命名为哈希(我猜内容的哈希?)
元数据:被放置在数据库中。快速访问、更改、更新等。每个节点都有属性 - 名称、标题、描述、日期、审核信息,无论您需要什么。它只是信息,全部保存到“属性”表中。
搜索:Alfresco使用Solr进行搜索,以前是Lucene。我有相当大的安装,如果你把 lucene 索引放在 SSD 上,它的速度会非常快。(Lucene 无论如何都很快)。它对文件内容和属性进行索引 - 因此您可以非常快速地获取节点 ID。
Alfresco 实施了 CIFS,以及 webdav、ftp 等。关键是,您可以将其作为文件夹或磁盘安装到用户的桌面上。
Web 界面在那里,中央仓库管理在那里,所有的要求都在那里。由于它是开源的,您可以获得一些源代码并在您的项目中使用它。不过,如果您感觉还好的话,加入 Alfresco 社区并回馈一点会更好。
您是否正在尝试构建文档管理系统?露天和 SharePoint?Alfresco 和 SharePoint 是项目管理解决方案,而不是文档管理解决方案。Alfresco 是某种 DMS 解决方案,但并不是它的优点。是的!对于项目管理解决方案来说,它是一个很好的软件。
我建议你购买文档管理解决方案,这是对文档的合法管理,也是针对当地政府的。有一些文档管理系统提供商,例如 Laserfiche 和 OnBase,他们的工作类似于 Google Docs。您可以为公司或企业的每位员工创建一个帐户。
是的,所有文档均为 MS Office 格式,如 Ms-Word、Ms-excel、PDF 和 PPT
文档管理系统的工作流程非常高效且易于处理
是的,通过使用DMS,您可以在几分钟内轻松找到文件(Laserfiche软件需要10分钟来提取文件或文件夹) Laserfiche DMs是Web界面软件。您可以登录该软件并轻松地从不同位置访问文件或文件夹
贮存
在 DMS 系统中,所有数据都受到保护并存储在云存储中。您只需登录您的帐户即可轻松访问该文档。如果丢失或损坏,您可以从公司获取丢失的数据。
元数据
DMs系统是常规数据库引擎,所有业务数据定期保存在云存储中
科技
不需要建造任何东西;您只需要购买DMS软件。我向您推荐 Laserfiche 因为我们正在使用他们的服务