문제

야에서 읽은 다양한 텍스트 파일(나는 몇 가지로 구분된 파일과 일부는 고정폭 파일).생각했던 분석 파일을 줄(느린 파일을 사용하고 있습니다.ReadLine 입력 방법)과 독서를 사용하여 파일 ODBC 텍스트 드라이버(더 빠르게)하지만 사람이 어떤 기타(나)제안이 있습니까?내가 사용합니다.NET/C#.

도움이 되었습니까?

해결책 3

응답 내 자신의 질문:

나는 끝까지 사용하여 Microsoft.Visual basic.사용해 전체 텍스트 인덱싱도 할 수.TextFieldParser 개체 참조하십시오:

http://msdn.microsoft.com/en-us/library/f68t4563.aspx

(예를 구현하기)

이것이 나를 처리하는 csv 파일에 대한 걱정없이는 방법에 대처하는지 여부를 필드를 따옴표로 묶여있다,쉼표를 포함 탈출 시세 등등.

다른 팁

나는 확실하지 않다 당신은 정말 할 수 있는 텍스트 및 Excel 파일을 파서 사용하여 엑셀 파일을 의미 쉼표/관/탭으로 구분하는 파일이 실제로 다른 텍스트 파일입니다.을 읽고 실제 excel 파일을 사용할 필요 MS Office 라이브러리입니다.

구분된 텍스트 파일을 분석할 수 있으로 보고 FileHelpers --오픈 소스와 그들이 꽤 많이 있습니다가 확실하지 않을 경우 그것은 일치할 것입니다 당신의 속도를 요구 하지만입니다.

을 무시하고 Excel 일(말을 하는 중요하지 않):

내가 찾 LINQ 당에서 유용한 분석 txt 파일(관으로 구분 또는 csv)

예:이를 읽고관으로 구분된 파일을 건너뛰 유 행을 만듭니다페이 결과적으로:

var 기록= 에서 라인에서 파일입니다.ReadAllLines(@"c:\blah.txt").Skip(1) 자 부속 줄=.Split('|') 선택하는 부품

면 파일은 상대적으로 작은 사용할 수 있습니다 파일 클래스입니다.그것에는 이러한 방법에 있는 당신을 도울 수 있습니다.:

  • ReadAllBytes
  • ReadAllLines
  • ReadAllText

당신의 질문은 이겁니다.나는 가정은 텍스트 파일로 포함하는 구조화된 데이터,다만,임의의 텍스트의 라인.

당신은 분석 파일을 직접 다음입니다.그물에는 라이브러리를 읽는 기능 모든 라인에서 텍스트 파일로 문자열의 배열(파일입니다.ReadAllLines).만약 당신이 당신의 파일을 충분히 작은 메모리에 저장한 다음,이 방법을 사용할 수 있습과 반복을 통해 배열을 정규표현식을 사용하여 검증&을 추출합니다.

엑셀 파일은 다른 볼 게임입니다..XLS 파일을 바이너리지,텍스트,그래서 당신은 필요한 제 3 자가 이용하도록 하여서는 라이브러리를 액세스할 수 있습니다..XLSX 파일에서 Excel2007 포함 압축 XML 데이터 그래서 다시 한 번,당신이해야하는 것 압축 XML 다음 사용 XML 파서를 얻습니다.내가 권하고 싶지 않다 쓰기에 자신의 XML parser 지 않는 한,당신은에 대한 필요성을 느끼 지적 운동입니다.

동의함으로 존,

예를 들어:-

using System.IO;

...

public class Program {
  public static void Main() {
    foreach(string s in File.ReadAllLines(@"c:\foo\bar\something.txt") {
      // Do something with each line...
    }
  }
}

파일을 읽는 과정을 느리지 않는 경우에 당신을 읽는 모든 파일에 한 번 파일을 사용하여 클래스와 방법을 제안했다.에 따라 파일의 크기 그리고 당신이 원하는지,그들과 함께 사용할 수 있습니다 더 많거나 적은 메모리입니다.나는 제안 당신은 파일입니다.ReadAllText(또는 어떤 당신을 위해 적절한)

에 대한 독 XLS 파:

는 경우에 당신은 Microsoft Office XP,스에 액세스할 수 있 이미 포함되어 있습니다.NET SDK 라이브러리 사무실할 수 있는"기본적으로"읽 XLS files,Word,PPT,etc.하시기 바랍에 Office XP 이 있을 수 있는지 확인하는 동안 설치하는(당신이하지 않는다.순 이전에 설치되는).

내가 알지 못하는 경우 이러한 라이브러리를 사용할 수 있는 별도의 패키지가 없는 경우 Microsoft Office.

일부 모호한 이유로,이러한 모든 라이브러리(을 포함하여 최신 버전은 사무실에서 2007-니다.k.a.:Office12),COM 요소를 사용하는 사용하는 원인,추악한 종속성과이 하위 호환성을 유지합니다.I.E.:이 있는 경우는 몇 가지 방법으로 작업 Office XP(Office11),그리고 당신이 설치에는 고객과 함께 사무실 12 , 기 때문에,몇 가지 인터페이스가 변경되었습니다.그래서 당신을 유지하기 위해 필요 두 개의 설정"의"라이브러리와 방법을 처리합니다.마찬가지는 경우 사용 Office12 라이브러리를 프로그램,그리고 당신은 고객 Office11.당신의 라이브러리 작동하지 않습니다.:S

이유는 모르겠 Microsoft 만들어지지 않 Microsoft.사무실입니다.XXXX 관리 라이브러리(wrapper)그들의 주위에 추한 것이다.

어쨌든,당신의 질문에 아주 이상한도에 따라 조언을 여기에.행운을 빕니다!

ODBC 텍스트 드라이버가 지금 오히려 날짜가-그것은 유니코드 지원합니다.

놀라 울 정도로 MS Excel 여전히 그것을 사용하고,그래서 당신 오픈 유니코드 CSV in Excel2007 년(보다 가져올)을 잃게 모든 비-ASCII 문자.

당신의 최선의 방법을 사용하는 것입니다.Net 의 파일을 읽는 방법으로,다른 사람을 제안합니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top