HtmlParser整体框架介绍

栏目:Web开发 作者:admin 日期:2015-09-03 评论:0 点击: 2,024 次

org.htmlparser
定义了htmlparser的一些基础类,其中最为重要的是Parser。Parser是htmlParser的最核心的类。
org.htmlparser.beans
对Visitor和Filter的方法进行了封装,定义了针对一些常用HTML元素操作的JavaBean,简化对常用元素的提取操作。包括:FilterBean、HTMLLinkBean、HTMLTextBean、LinkBean、StringBean、BeanyBaby等。
org.htmlparser.nodes
定义了基础的node,包括:AbstractNode、RemarkNode、TagNode、TextNode等。Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现。 org.htmlparser.tags
定义了HtmlParser进行解析的网页中的各种标签。
org.htmlparser.filters
定义了各种过滤器filter,主要通过extractAllNodesThatMatch (NodeFilter filter)来对html页面指定类型的元素进行过滤,包括:AndFilter、CssSelectorNodeFilter、HasAttributeFilter、HasChildFilter、HasParentFilter、HasSiblingFilter、IsEqualFilter、LinkRegexFilter、LinkStringFilter、NodeClassFilter、NotFilter、OrFilter、RegexFilter、StringFilter、TagNameFilter、XorFilter
org.htmlparser.visitors
定义了各种访问者visitor,主要通过visitAllNodesWith (NodeVisitor visitor)来对html页面元素进行遍历,包括:HtmlPage、LinkFindingVisitor、NodeVisitor、ObjectFindingVisitor、StringFindingVisitor、TagFindingVisitor、TextExtractingVisitor、UrlModifyingVisitor

HtmlParser整体框架介绍:等您坐沙发呢!

发表评论