myhtml下载 - myhtml源码下载

myhtml

C#源码

v4.0.5

下载

MyHTML — 纯 C HTML 解析器

MyHTML 是一个使用线程的快速 HTML 解析器，作为纯 C99 库实现，没有外部依赖项。

现在

重要公告！

请使用 Lexbor 项目中的 HTML 解析器。它很稳定，有更多的功能，而且——是的——它的速度非常快。

特征

异步解析、构建树和索引
完全符合HTML5规范
两个 API - 高级和低级
元素操作：添加、更改、删除等
操作元素属性：添加、更改、删除等
通过encoding.spec.whatwg.org规范支持39个字符编码
支持检测字符编码
支持单模式解析
支持无 POSIX 线程的构建
支持片段解析
支持按块解析
没有外部依赖
C99 支持
通过 html5lib-tests 的所有树构建测试
经过 10 亿个 HTML 页面的测试（由 commoncrawl.org 提供）

变化

请参阅 CHANGELOG.md 文件

进一步发展

Modest - Modest 是一个快速 HTML 渲染器，作为纯 C99 库实现，没有外部依赖项
MyCSS — 快速 C/C++ CSS 解析器（级联样式表解析器）

支持输入流编码

 X_USER_DEFINED, UTF_8, UTF_16LE, UTF_16BE, BIG5, EUC_KR, GB18030,
IBM866, ISO_8859_10, ISO_8859_13, ISO_8859_14, ISO_8859_15, ISO_8859_16, ISO_8859_2, ISO_8859_3,
ISO_8859_4, ISO_8859_5, ISO_8859_6, ISO_8859_7, ISO_8859_8, KOI8_R, KOI8_U, MACINTOSH,
WINDOWS_1250, WINDOWS_1251, WINDOWS_1252, WINDOWS_1253, WINDOWS_1254, WINDOWS_1255, WINDOWS_1256,
WINDOWS_1257, WINDOWS_1258, WINDOWS_874, X_MAC_CYRILLIC, ISO_2022_JP, GBK, SHIFT_JIS, EUC_JP, ISO_8859_8_I

支持输出编码

程序以 UTF-8 运行并以 UTF-8 格式返回所有内容

检测字符编码

现在支持 UTF-8、UTF-16LE、UTF16BE 和俄语 windows-1251、koi8-r、iso-8859-5、x-mac-cyrillic、ibm866

安装

请参阅安装.md

介绍

基准

带图表的文章
基准代码
图像和 CSV

依赖关系

没有任何

外部装订和包装

Perl 5 HTML::MyHTML 模块
Perl 5 HTML5::DOM 模块（带有 CSS 选择器的 DOM）
Perl 6 模块
水晶装订
Elixir/Erlang 绑定
斯威夫特包装器

示例

查看示例目录

简单的例子

 #include 
#include 
#include 

#include 

int main ( int argc , const char * argv [])
{
    char html [] = "HTML
" ;
    
    // basic init
    myhtml_t * myhtml = myhtml_create ();
    myhtml_init ( myhtml , MyHTML_OPTIONS_DEFAULT , 1 , 0 );
    
    // first tree init
    myhtml_tree_t * tree = myhtml_tree_create ();
    myhtml_tree_init ( tree , myhtml );
    
    // parse html
    myhtml_parse ( tree , MyENCODING_UTF_8 , html , strlen ( html ));
    
    // print result
    // or see serialization function with callback: myhtml_serialization_tree_callback
    mycore_string_raw_t str = { 0 };
    myhtml_serialization_tree_buffer ( myhtml_tree_get_document ( tree ), & str );
    printf ( "%sn" , str . data );
    
    // release resources
    mycore_string_raw_destroy ( & str , false);
    myhtml_tree_destroy ( tree );
    myhtml_destroy ( myhtml );
    
    return 0 ;
}