现在的位置: 首页 >> 程序开发 >> C#.NET >> C#中利用Markup Service实现HTML解析为DOM Tree
添加时间:2005-10-30 来源:网教中国 作者:
C#中利用Markup Service实现HTML解析为DOM Tree

一个轻量级Parsing 实现。这个代码不会从网上下载任何资料,也不会执行任何脚本,纯属Parsing。
Parsing是通过MSHTML的Markup Service实现的。要正确使用这个代码,需要添加MSHTML引用。
由于.net中没有定义IPersistStreamInt接口,就必须自己实现,接口定义:
以下内容为程序代码:

[ComVisible(true), ComImport(), Guid("7FD52380-4E07-101B-AE2D-08002B2EC713 " ) , InterfaceTypeAttribute(ComInterfaceType.InterfaceIsIUnknown)]
public interface IPersistStreamInit 
{
 void GetClassID([In, Out] ref Guid pClassID);
 [return: MarshalAs(UnmanagedType.I4)] [PreserveSig]
 int IsDirty();
 void Load([In, MarshalAs(UnmanagedType.Interface)] UCOMIStream pstm);
 void Save([In, MarshalAs(UnmanagedType.Interface)] UCOMIStream pstm, 
  [In, MarshalAs(UnmanagedType.I4)] int fClearDirty);
 void GetSizeMax([Out, MarshalAs(UnmanagedType.LPArray)] long pcbSize);
 void InitNew();
}
 

以下内容为程序代码:

  unsafe IHTMLDocument2  Parse(string s)
  {
   IHTMLDocument2 pDocument=new HTMLDocumentClass();  
   if(pDocument!=null)
   {
    IPersistStreamInit pPersist=pDocument as IPersistStreamInit ;
    pPersist.InitNew();
    pPersist=null;
    IMarkupServices ms=pDocument as IMarkupServices ;
    if(ms!=null)
    {
     IMarkupContainer pMC=null;
     IMarkupPointer pStart,pEnd;
     ms.CreateMarkupPointer(out pStart);
     ms.CreateMarkupPointer(out pEnd);
     StringBuilder sb=new StringBuilder(s); 
     IntPtr pSource=Marshal.StringToHGlobalUni(s);
     ms.ParseString(ref *(ushort*)pSource.ToPointer(),0,out pMC,pStart,pEnd);
     if(pMC!=null)
     {
      Marshal.Release(pSource);
      return pMC as IHTMLDocument2;
     }
     Marshal.Release(pSource);
    }
   }
   return null;
  }
 
 

写代码的时候出了一点问题,IMarkupService::ParseString第一个参数是ref ushort,显然要传入HTML代码,这个ushort必须是第一个WideChar了,所以这里通过使用不安全代码来绕过编译器警告。


上一篇:使用C#在进度条中显示复制文件的进度 下一篇:c#操作word表格
大部分文章摘自网上,如有侵犯您的权益请与我们联系,我们会第一时间进行处理,谢谢! [ 打印文章 ] [ 关闭窗口 ]
推荐文章
·Snake.Net中的ORM(三)
·Visual C#托管Socket的实现方法(
·对.NET Framework "事件"机制理
·C#锐利体验(3.2)
·在C#中使用COM+实现事务控制
·.NET Remoting编程简介
·全面剖析VB.NET(3)
·微软的远程处理框架.NET Remotin
·C#重点知识详解(一)
·冰雹欲来风满楼--.NET计划初露锋
相关文章
 
最新文章
·数据结构与算法(C#实现)系列---(
·数据结构与算法(C#实现)系列---(
·数据结构与算法(C#实现)系列---(
·ASP.net 验证码(C#)
·Snake.Net中的ORM(三)
·Snake.Net中的ORM(二)
·Snake.Net中的ORM(-)
·用C#生成随机中文汉字验证码的基
·Autodesk官方最新的.NET教程(五
·Autodesk官方最新的.NET教程(四
Google