Como enlace de escaneado de documentos con su contenido de texto para que sea investigable?

https://stackoverflow.com/questions/3912885

29-09-2019
|

Pregunta

Tengo documentos PDF que contienen varias imágenes / páginas de documentos escaneados. Su (producido por OCR) el contenido del texto viene en archivos XML.

¿Es posible utilizar / vincular el contenido del texto a partir de XML alguna manera a mis archivos PDF? (Lo ideal sería que no habría archivos adicionales que quedan en el repositorio para confundir a los usuarios desconocen.)

Como me han dicho que hay 65k límite en una propiedad de texto, por lo tanto, no puedo simplemente poner el contenido de texto en una propiedad en el, como el PDF podría fácilmente exceder ese límite.

Una sugerencia se ha hecho pasar una corriente con el contenido del texto a cm: propiedad de contenido de mi archivo PDF. Estoy un poco perdido aquí, como la OMI que significa que o bien que estoy proporcionando una referencia o estoy asignando gran cadena de nuevo. El primer significaría el contenido del texto tiene que ser preservado en algún lugar como un documento separado. Los sonidos posteriores como me golpearían el límite de 65k de nuevo.
También pienso entorno cm: contenido probablemente borrar el contenido PDF en sí. Necesito los datos binarios PDF permanecer intacta.

Aquí es donde el sugerencia se está discutiendo . Actualmente estoy tratando de que de todos modos.

Solución 2

Otra manera de lograr lo que necesito sería la configuración de MY_TEXT_CONTENT_PROPERTY usando contentService ...

ContentWriter writer = getContentService().getWriter(pdfNodeRef, MyModel.MY_TEXT_CONTENT_PROPERTY, true);
writer.setMimetype("text/plain");
writer.setEncoding("UTF-8");
writer.putContent(stringFromXmlDescription); // the source XML gets thrown away

(Lo importante parece ser la de poner el contenido después el tipo MIME y la codificación se establecen. De lo contrario, el contenido / propiedad no se puede buscar.)

Con este enfoque no hay necesidad de ocultar los documentos de texto vinculados, no hay ninguno.

Otros consejos

Soo, en realidad es bastante fácil ... Lo que hay que hacer es definir una propiedad de tipo "D: contenido" en su documento; Lo hago a través de un aspecto ...

model.xml:

<aspects>
    <aspect name="mm:my_aspect">
...
            <property name="mm:myTextContentProperty">
                <type>d:content</type>
            </property>
        </properties>
    </aspect>
</aspects>

A continuación, cuando tengo tanto PDF como su representación de texto en el repositorio, que vincular los dos añadiendo el aspecto y llenar la propiedad ...

getNodeService().addAspect(pdfNodeRef, myAspect, null);
getNodeService().setProperty(pdfNodeRef, MyModel.MY_TEXT_CONTENT_PROPERTY, new ContentData("store://....bin", "text/plain", size, "UTF-8"));

Ahora, el PDF se puede encontrar a través de los dos siguientes consultas a pesar de que no contiene datos de texto ...

"@\\{http\\://mymodel.ns/content/1.0\\}myTextContentProperty:\"" + string + "\""
"TEXT:\"" + string + "\""

La tarde también se insinúa aquí , y supongo que es buscar cómo regular en Alfresco web Client funciona, porque ahora el PDF es alcanzable mediante la entrada de búsqueda normal.
Hay una cuestión sin embargo: la búsqueda escupe el documento PDF y también el documento me enlace utilizando la propiedad. Así que ahora tengo que ocultar la tarde a partir de resultados de búsqueda ...

(Cuando busque con la primera consulta sólo el PDF se encuentra, como se esperaba;. Pero este enfoque es de poca utilidad para mí)

Es de esperar que ahorra algo de tiempo a otras Alfresco-novatos. :)

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow