Pregunta

Necesito romper una línea de cadena en diferentes columnas en Excel. Aquí está la entrada de TE que recibo.

entrada :

  • 37006 II semestre p.g. Diplomado en investigación clínica y examen de gestión de datos clínicos, julio / agosto de 2012 Tiempo de asuntos regulatorios de Pharma: 3 horas máx. Marcas: 100

Salida : CSV Registro con estructura (código, sem / año, sujeto, curso, fecha de examen, tiempo, marcas)

  • 37006, ii semestre, p.g. Diplomado en Investigación Clínica y Gestión de Datos Clínicos, Asuntos Reguladores de Pharma, Julio / Agosto de 2012, 3 HORAS, 100

Tengo datos en diferentes conjuntos que construyen por encima de las líneas. Por ejemplo:

gramática (Este es un matriz / diccionario):

  • semestres [I, II, III, IV, V, VI, VII, VIII, IX, X, 1,2,3,4,5,67,8,9,10]
  • años [I, II, III, IV, V, VI, VII, VIII, IX, X, 1,2,3,4,5,67,8,9,10]
  • sujetos [p.g. Diploma en Investigación Clínica y Gestión de Datos Clínicos, LL.B]
  • cursos [Asuntos reguladores de Pharma, Ley - Jurisprudencia]
  • Examina [julio / agosto de 2012, Jan./Feb. 2013]
  • tiempo [3 horas]
  • Maxmarks [30,40,50.60.70,80,90,100]

fyi,

  • No estoy seguro de poder usar a cualquier delimitador para romperlo como es altamente impredecible o confiable.
  • No estoy seguro del texto estar en el mismo orden en cada línea o sin longitud fija o automóviles o palabras

Mi suposición es, lea palabra por palabra e intente coincidir con cualquier palabra en cualquier matriz que tenga. Si su coincidencia con cualquier palabra, clasifique esa palabra en la categoría de caída y agregue a la columna relevante en Excel.

Aquí, sé cómo manejar los datos y todo, excepto en qué es lo optimizado / la mejor manera de Entienda que cada palabra cae bajo qué categoría.

¿Hay algún experto en análisis léxico que pueda compartir algunos pensamientos sobre esto?

¿Fue útil?

Solución

Debe usar expresiones regulares para hacer coincidir dicho patrón de texto complicado.

Otros consejos

Eche un vistazo a un analizador léxico como antlr .Si conoce Java u otros idiomas que lean Expresiones regulares , podrán analizarlas con facilidad después de una tarde (o semana) de tortura.También puede escribir el Regexp en Java, pero lo empujaría hacia la interfaz ANTLR, que puede usar desde Eclipse.Le mostrará cómo se analizan las líneas.

Tener la salida del antlr o Java escribir un archivo CSV.El CSV recibirá su vehículo para obtener sus datos en la hoja de cálculo de Excel.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top