• Html灵活性组(HAP)的开发是为了以一种敏捷HTML分析器,建立一个读写DOM和支持纯XPATH或XSLT。

    它是一个。净码图书馆,让你来分析"网页"HTML文件。 分析程序是非常宽容与"真实世界"的格式错误HTML。 对象的模式是非常相似的什么建议System.Xml但为HTML文件(或流)。 Html灵活性组现在支持皇宫的对象(通过一个皇宫的Xml像接口)。

    样本应用程序:

    ·页固定或产生。 你可以修复的一页你想要的方式,修改DOM,增加节点,复制节点,以及...你的名字

    ·网页的扫描仪。 你可以很容易地得到img/src或a/href一堆XPATH queries

    ·网刮刀。 你可以轻易地废料的任何现有的网页入RSS例如,只有一个XSLT文件服务作为的结合。 这样的一个例子是提供

    没有依赖于其他任何东西比。净的XPATH执行情况。 没有任何依赖关系Internet Explorer的MSHTML dll或W3C的HTML整洁,或者件/COM目的,或任何类似的。 也没有遵守XHTML或XML,虽然实际上你可以产生XML使用的工具。 该版本张贴在这里上更是对的。净框架2.0. 如果你需要旧的版本,请访问旧的网页或者我注意。

  • Html चपलता पैक (पड़ना) विकसित किया गया था होना करने के लिए एक चुस्त HTML पार्सर बनाता है कि एक पढ़ने/लिखने के डोम का समर्थन करता है और सादे XPATH या XSLT.

    यह एक है .शुद्ध कोड पुस्तकालय की अनुमति देता है कि आप पार्स करने के लिए "बाहर" वेब के HTML फ़ाइलों है । पार्सर बहुत सहिष्णु है के साथ "वास्तविक दुनिया" विकृत HTML है । ऑब्जेक्ट मॉडल के लिए बहुत समान है क्या का प्रस्ताव System.Xml है, लेकिन के लिए HTML दस्तावेज़ (या धाराओं के साथ). Html चपलता अब पैक का समर्थन करने के लिए Linq वस्तुओं के माध्यम से (एक LINQ के लिए एक्सएमएल की तरह इंटरफ़ेस).

    नमूना अनुप्रयोग:

    · पृष्ठ फिक्सिंग या पीढ़ी है । आप कर सकते हैं एक पेज को ठीक तरह से आप चाहते हैं, संशोधित डोम नोड्स जोड़ने, कॉपी नोड्स, अच्छी तरह से तुम यह नाम है...

    · वेब स्कैनर । आप कर सकते हैं आसानी से प्राप्त करने के लिए आइएमजी/src या एक/hrefs के साथ एक गुच्छा XPATH क्वेरीज़

    · वेब scrapers. आप आसानी से स्क्रैप किसी भी मौजूदा वेब पेज में एक आरएसएस फ़ीड के साथ, उदाहरण के लिए सिर्फ एक XSLT फ़ाइल के रूप में सेवारत बाध्यकारी है । इस का एक उदाहरण ही प्रदान की जाती है

    वहाँ पर निर्भरता नहीं है कुछ और की तुलना में है । नेट के XPATH कार्यान्वयन. वहाँ कोई नहीं है पर निर्भरता इंटरनेट एक्सप्लोरर के MSHTML dll या W3C के HTML साफ या ActiveX / COM ऑब्जेक्ट, या कुछ भी की तरह है कि. वहाँ भी है कोई पालन करने के लिए XHTML, या XML, हालांकि आप कर सकते हैं वास्तव में उत्पादन XML उपकरण का उपयोग. संस्करण प्रकाशित किया गया था यहाँ पर CodePlex के लिए है .NET Framework 2.0 है. यदि आप पुराने संस्करण है, तो कृपया जाने के लिए, पृष्ठ या ड्रॉप मुझे एक नोट है ।

  • Html Agility Pack (HAP) was developed to be an agile HTML parser that builds a read/write DOM and supports plain XPATH or XSLT.

    It is a .NET code library that allows you to parse "out of the web" HTML files. The parser is very tolerant with "real world" malformed HTML. The object model is very similar to what proposes System.Xml, but for HTML documents (or streams). Html Agility Pack now supports Linq to Objects (via a LINQ to Xml Like interface).

    Sample applications:

    · Page fixing or generation. You can fix a page the way you want, modify the DOM, add nodes, copy nodes, well... you name it

    · Web scanners. You can easily get to img/src or a/hrefs with a bunch XPATH queries

    · Web scrapers. You can easily scrap any existing web page into an RSS feed for example, with just an XSLT file serving as the binding. An example of this is provided

    There is no dependency on anything else than .Net's XPATH implementation. There is no dependency on Internet Explorer's MSHTML dll or W3C's HTML tidy or ActiveX / COM object, or anything like that. There is also no adherence to XHTML or XML, although you can actually produce XML using the tool. The version posted here on CodePlex is for the .NET Framework 2.0. If you need the old version, please go to the old page or drop me a note.