在c＃中读取的文本文件

https://stackoverflow.com/questions/1808070

05-07-2019
|

题

我有一个文本文件，它来自邮件正文的内容。它包含html代码。

我想只从该文本文件中获取href标记。我想用asp.net c＃web应用程序执行此操作。

是否有人有代码可以帮助我......

谢谢

解决方案

尝试使用 Html Agility Pack 来解析电子邮件中的HTML并提取来自<！> lt; a <！> gt;的href 属性标签

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(emailBody);
foreach (HtmlNode link in doc.DocumentNode.SelectNodes("//a[@href]"))
{
   HtmlAttribute att = link.Attributes["href"];
   string href = att.Value;
}

其他提示

你可以使用正则表达式，即使它不是一个完美的解决方案：

class Program
{
    static void Main(string[] args)
    {
        var text = File.ReadAllText(@"d:\test.htm");

        Regex regex = new Regex("href\\s*=\\s*\"([^\"]*)\"", RegexOptions.IgnoreCase);
        MatchCollection matches = regex.Matches(text);
        foreach(Match match in matches)
        {
            Console.WriteLine(match.Groups[1]);
        }
    }
}

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow