aParser下载 - aParser源码下载

aParser

Visual Basic

1.0.0

下载

解析器

该项目是一个编译器，它接受用C# 编写的源程序（输入），然后将其转换为用Visual Basic 编写的目标程序（输出） 。此过程分别通过三个模块（ Tokenizer 、 Parser和Translator ）来完成。本报告将分别对各个模块进行说明。

分词器

什么是分词器？

分词器/词法分析器是一个接受字符序列（输入）并输出标记序列（输出）的程序。

代币定义

分词器具有每个可能的标记的定义列表，它可以通过对字符序列进行分组来生成。每个令牌定义包括：

Type : 用于区分token
正则表达式（RegEx） ：用于捕获（匹配）值

下表代表了项目中使用的所有定义，以及每个定义的匹配值示例。

关键词

类型	正则表达式	匹配值
使用	使用	`using`
班级	班级	`class`
如果	如果	`if`
别的	别的	`else`
为了	为了	`for`
做	做	`do`
尽管	尽管	`while`
转变	转变	`switch`
案件	案件	`case`
休息	休息	`break`
默认	默认	`default`
返回	返回	`return`
无效的	无效的	`null`
真的	真的	`true`
错误的	错误的	`false`
错误的	(void \| var) \| （布尔 \| 字符 \| 短 \| int \| 长 \| 浮点 \| 双 \| 小数 \| 字符串 \| 字符串） ([] \| ?)？	`void` `bool` `char?` `int[]`

价值观

类型	正则表达式	匹配值
数字	d*.d+ \| d+	`77` `.25` `3.14`
细绳	“[^”]*”	`"This is string"`
标识符	[a-zA-Z_]w*	`fact` `_private` `iD_1`
评论	(?<=//).*? (?=(r \| n \| //))	// `inline comment`
多行注释	(?<=/) (?:(?!/)(?:.\|[rn]))* (?=*/)	/* `multi line` `comment` */

运营商

类型	正则表达式	匹配值
和	&& \| &	`&&` `&`
或者	\|\| \| \|	`\|\|` `\|`
不是	！	`!`
平等的	=	`=`
加等于	+=	`+=`
减等于	-=	`-=`
双等于	==	`==`
不等于	!=	`!=`
少于	<	`<`
大于	>	`>`
小于或等于	<=	`<=`
大于或等于	>=	`>=`

符号

类型	正则表达式	匹配值
开放式圆括号	(	`(`
关闭圆括号	)	`)`
开大括号	{	`{`
关闭大括号	}	`}`
开方括号	[	`[`
关闭方括号	]	`]`
加	+	`+`
减	-	`-`
双加	++	`++`
双减	--	`--`
百分比	%	`%`
星号	*	`*`
反斜杠	\
正斜杠	/	`/`
双正斜杠	//	`//`
正斜杠星号	/*	`/*`
星号正斜杠	*/	`*/`
点	.	`.`
逗号	,	`,`
冒号	:	`:`
分号	;	`;`

执行

所有这些令牌类型都在 TokenType.cs 文件中分组为枚举。

 public enum TokenType
{
    // Keywords
    Using ,               // using
    Class ,               // class
    If ,                  // if
    Else ,                // else
    For ,                 // for
    Do ,                  // do
    While ,               // while
    Switch ,              // switch
    Case ,                // case
    Break ,               // break
    Default ,             // default
    Return ,              // return
    Null ,                // null
    True ,                // true
    False ,               // false
    DataType ,            // void | bool | char? | int[]

    // Values
    Number ,              // 77 | .25 | 3.14
    String ,              // "I am 'Moaz'"
    Comment ,             // Any Character After (//) and Before (r | n | //)
    Identifier ,          // fact | _private | iD_1
    MultilineComment ,    // Any Character After (/*) and Before (*/)

    // Operators
    And ,                 // && | &
    Or ,                  // || | |
    Not ,                 // !
    Equal ,               // =
    PlusEqual ,           // +=
    MinusEqual ,          // -=
    DoubleEquals ,        // ==
    NotEqual ,            // !=
    LessThan ,            // <
    GreaterThan ,         // >
    LessThanOrEqual ,     // <=
    GreaterThanOrEqual ,  // >=

    // Symbols
    OpenRoundBracket ,    // (
    CloseRoundBracket ,   // )
    OpenCurlyBracket ,    // {
    CloseCurlyBracket ,   // }
    OpenSquareBracket ,   // [
    CloseSquareBracket ,  // ]
    Plus ,                // +
    Minus ,               // -
    DoublePluses ,        // ++
    DoubleMinuses ,       // --
    Percent ,             // %
    Asterisk ,            // *
    BackSlash ,           // 
    ForwardSlash ,        // /
    DoubleForwardSlashes , // //
    ForwardSlashAsterisk , // /*
    AsteriskForwardSlash , // */
    Dot ,                 // .
    Comma ,               // ,
    Colon ,               // :
    Semicolon            // ;
}

它们的定义被创建并存储在 Tokenizer.cs 文件中的List<TokenDefinition>中。

 private readonly List < TokenDefinition > _tokenDefinitions = new List < TokenDefinition >
{
    // Keywords
    new TokenDefinition ( TokenType . Using , @"using" ) ,
    new TokenDefinition ( TokenType . Class , @"class" ) ,
    new TokenDefinition ( TokenType . If , @"if" ) ,
    new TokenDefinition ( TokenType . Else , @"else" ) ,
    new TokenDefinition ( TokenType . For , @"for" ) ,
    new TokenDefinition ( TokenType . Do , @"do" , 1 ) ,
    new TokenDefinition ( TokenType . While , @"while" ) ,
    new TokenDefinition ( TokenType . Switch , @"switch" ) ,
    new TokenDefinition ( TokenType . Case , @"case" ) ,
    new TokenDefinition ( TokenType . Default , @"default" ) ,
    new TokenDefinition ( TokenType . Break , @"break" ) ,
    new TokenDefinition ( TokenType . Return , @"return" ) ,
    new TokenDefinition ( TokenType . Null , @"null" ) ,
    new TokenDefinition ( TokenType . True , @"true" ) ,
    new TokenDefinition ( TokenType . False , @"false" ) ,
    new TokenDefinition ( TokenType . DataType , @"(void|var)|(bool|char|short|int|long|float|double|decimal|String|string)([]|?)?" ) ,

    // Values
    new TokenDefinition ( TokenType . Number , @"d*.d+|d+" ) ,
    new TokenDefinition ( TokenType . String , @"""[^""]*""" ) ,
    new TokenDefinition ( TokenType . Identifier , @"[a-zA-Z_]w*" , 1 ) ,
    new TokenDefinition ( TokenType . Comment , @"(?<=//).*?(?=(r|n|//))" ) ,
    new TokenDefinition ( TokenType . MultilineComment , @"(?<=/*)(?:(?!*/)(?:.|[rn]))*(?=*/)" ) ,

    // Operators
    new TokenDefinition ( TokenType . And , @"&&|&" ) ,
    new TokenDefinition ( TokenType . Or , @"||||" ) ,
    new TokenDefinition ( TokenType . Not , @"!" , 1 ) ,
    new TokenDefinition ( TokenType . Equal , @"=" , 1 ) ,
    new TokenDefinition ( TokenType . PlusEqual , @"+=" ) ,
    new TokenDefinition ( TokenType . MinusEqual , @"-=" ) ,
    new TokenDefinition ( TokenType . DoubleEquals , @"==" ) ,
    new TokenDefinition ( TokenType . NotEqual , @"!=" ) ,
    new TokenDefinition ( TokenType . LessThan , @"<" , 1 ) ,
    new TokenDefinition ( TokenType . GreaterThan , @">" , 1 ) ,
    new TokenDefinition ( TokenType . LessThanOrEqual , @"<=" ) ,
    new TokenDefinition ( TokenType . GreaterThanOrEqual , @">=" ) ,

    // Symbols
    new TokenDefinition ( TokenType . OpenRoundBracket , @"(" ) ,
    new TokenDefinition ( TokenType . CloseRoundBracket , @")" ) ,
    new TokenDefinition ( TokenType . OpenCurlyBracket , @"{" ) ,
    new TokenDefinition ( TokenType . CloseCurlyBracket , @"}" ) ,
    new TokenDefinition ( TokenType . OpenSquareBracket , @"[" ) ,
    new TokenDefinition ( TokenType . CloseSquareBracket , @"]" ) ,
    new TokenDefinition ( TokenType . Plus , @"+" , 1 ) ,
    new TokenDefinition ( TokenType . Minus , @"-" , 1 ) ,
    new TokenDefinition ( TokenType . DoublePluses , @"++" ) ,
    new TokenDefinition ( TokenType . DoubleMinuses , @"--" ) ,
    new TokenDefinition ( TokenType . Percent , @"%" ) ,
    new TokenDefinition ( TokenType . Asterisk , @"*" , 1 ) ,
    new TokenDefinition ( TokenType . BackSlash , @"\" ) ,
    new TokenDefinition ( TokenType . ForwardSlash , @"/" , 1 ) ,
    new TokenDefinition ( TokenType . DoubleForwardSlashes , @"//" ) ,
    new TokenDefinition ( TokenType . ForwardSlashAsterisk , @"/*" ) ,
    new TokenDefinition ( TokenType . AsteriskForwardSlash , @"*/" ) ,
    new TokenDefinition ( TokenType . Dot , @"." ) ,
    new TokenDefinition ( TokenType . Comma , @"," ) ,
    new TokenDefinition ( TokenType . Colon , @":" ) ,
    new TokenDefinition ( TokenType . Semicolon , @";" ) ,
} ;
.. .

已解决的问题

1. 代币重叠时

当记号生成器面对像++这样的字符序列时，它会感到困惑，它是DoublePluses类型的一个记号吗？或者两个Plus类型的连续标记？此问题也适用于其他重叠标记，例如： { + , += } & { - , -- } & { - , -= } & { / , // }

解决方案：

每个令牌都将被分配一个默认值0 （最高优先级）的Priority属性，当两个令牌像+和+=一样重叠时，我们将长度较短的+的优先级降低为1 。
现在，分词器不会再混淆+和+= ，并且会采用优先级更高的+= 。

2. 代币内的代币

当分词器面对某些字符序列（例如"String + String = String"时，它将产生三种类型的标记：

字符串： "String + String = String"
加： +
等于： =

但我们只需要String类型的令牌！

解决方案：

每个令牌都将分配一个开始索引和结束索引属性，以便以前的令牌将具有：

类型	价值	开始索引	结束索引
细绳	`"String + String = String"`	0	25
加	`+`	8	9
平等的	`=`	17 号	18

并且我们忽略在另一个令牌范围内开始的任何令牌。

现在，标记生成器将仅生成一个String类型的标记，并忽略内部的标记。

解析器

什么是解析器？

解析器/语法分析器是一个程序，它采用从 Tokenizer 生成的一系列标记，并将它们分组以形成由所使用的上下文无关语法 (CFG) 的产生式指定的结构。

解析器角色

识别上下文无关语法
产生有意义的错误消息
构建中间表示 (IR)

上下文无关语法 (CFG)

概括：

CAPITAL_CASE ：非终结符
small_case ：终端
| ：替代（或）
ε ：空

  PROGRAM --> IMPORTS CLASSES

  IMPORTS          --> IMPORT_STATEMENT IMPORTS | ε
  IMPORT_STATEMENT --> using IDS;

  CLASSES          --> CLASS_STATEMENT CLASSES | ε
  CLASS_STATEMENT  --> class id { SUPER_STATEMENTS }

  SUPER_STATEMENTS --> SUPER_STATEMENT SUPER_STATEMENTS | ε
  SUPER_STATEMENT  --> COMMENT_STATEMENT | FUNCTION_STATEMENT | INLINE_STATEMENT ;

  COMMENT_STATEMENT  --> // comment | /* multiline_comment */
  FUNCTION_STATEMENT --> data_type id (DECLARES) { STATEMENTS }
  INLINE_STATEMENT     --> DECSIGN_STATEMENT | DECLARE_STATEMENT | INC_DEC_STATEMENT | ASSIGN_STATEMENT | CALL_STATEMENT
    DECSIGN_STATEMENT  --> data_type id = EXPRESSION
    DECLARE_STATEMENT  --> data_type id
    INC_DEC_STATEMENT  --> id INC_DEC_OPERATOR
    ASSIGN_STATEMENT   --> id ASSIGN_OPERATOR EXPRESSION
    CALL_STATEMENT     --> IDS(EXPRESSIONS)

  STATEMENTS --> STATEMENT STATEMENTS | ε
  STATEMENT  --> SUPER_STATEMENT | STRUCT_STATEMENT

  STRUCT_STATEMENT --> IF_STATEMENT | WHILE_STATEMENT | DO_WHILE_STATEMENT | FOR_STATEMENT | BLOCK_STATEMENT | RETURN_STATEMENT | SWITCH_STATEMENT
    IF_STATEMENT          --> if (CONDITION) STATEMENT ELSE_STATEMENT
    ELSE_STATEMENT        --> else STATEMENT  | ε
    WHILE_STATEMENT       --> while (CONDITION) STATEMENT
    DO_WHILE_STATEMENT    --> do STATEMENT while (CONDITION);
    FOR_STATEMENT         --> for (INLINE_STATEMENT; CONDITION; INLINE_STATEMENT) STATEMENT
    BLOCK_STATEMENT       --> { STATEMENTS }
    RETURN_STATEMENT      --> return RETURN_STATEMENT_REST;
    RETURN_STATEMENT_REST --> EXPRESSION | ε
    SWITCH_STATEMENT      --> switch (EXPRESSION) { CASES }
    CASES                 --> CASE CASES | ε
    CASE                  --> CASE_STATEMENT | DEFAULT_STATEMENT
    CASE_STATEMENT        --> case VALUE: STATEMENT break;
    DEFAULT_STATEMENT     --> default: STATEMENT break;

  CONDITION  --> EXPRESSION REL_OPERATOR EXPRESSION | true | false
  EXPRESSION --> VALUE | id | ( EXPRESSION )
  VALUE      --> string | number | true | false | null

  IDS              --> id MORE_IDS
  MORE_IDS         --> .IDS | ε

  DECLARES         --> DECLARE_STATEMENT MORE_DECLARES | ε
  MORE_DECLARES    --> , DECLARES | ε

  EXPRESSIONS      --> EXPRESSION MORE_EXPRESSIONS | ε
  MORE_EXPRESSIONS --> , EXPRESSIONS | ε

  INC_DEC_OPERATOR --> ++ | --
  ASSIGN_OPERATOR  --> = | += | -=
  REL_OPERATOR     --> == | != | > |  >= | < | <=

BNF 语法图

在计算机科学中，巴科斯范式（BNF 或巴科斯范式）是一种用于描述编程语言或其他形式语言语法的符号。它是由约翰·巴克斯和彼得·诺尔开发的。 BNF 可以被描述为上下文无关语法的元语法表示法。
——巴科斯-诺尔形式@维基百科

程序

导入语句

引用者：

程序

CLASS_语句

引用者：

程序

陈述

引用者：

块语句
案例声明
默认语句
DO_WHILE_语句
FOR_语句
函数语句
IF_语句
WHILE_语句

超级语句

引用者：

CLASS_语句
陈述

评论_声明

引用者：

超级语句

多行评论

引用者：

评论_声明

函数语句

引用者：

超级语句

内联语句

引用者：

FOR_语句
超级语句

DECLARE_语句

引用者：

函数语句
内联语句

分配语句

引用者：

内联语句

DECSIGN_语句

引用者：

内联语句

INC_DEC_语句

引用者：

内联语句

调用语句

引用者：

内联语句

结构语句

引用者：

陈述

块语句

引用者：

结构语句

IF_语句

引用者：

结构语句

WHILE_语句

引用者：

结构语句

DO_WHILE_语句

引用者：

结构语句

FOR_语句

引用者：

结构语句

返回语句

引用者：

结构语句

SWITCH_语句

引用者：

结构语句

案例声明

引用者：

SWITCH_语句

默认语句

引用者：

SWITCH_语句

健康）状况

引用者：

DO_WHILE_语句
FOR_语句
IF_语句
WHILE_语句

表达

引用者：

分配语句
健康）状况
DECSIGN_语句
表达
返回语句
SWITCH_语句

识别码

引用者：

分配语句
调用语句
CLASS_语句
DECLARE_语句
DECSIGN_语句
表达
函数语句
导入语句
INC_DEC_语句

价值

引用者：

案例声明
表达

数字

引用者：

价值

布尔值

引用者：

健康）状况
价值

细绳

引用者：

价值

INC_DEC_OPERATOR

引用者：

INC_DEC_语句

ASSIGN_OPERATOR

引用者：

分配语句

REL_运算符

引用者：

健康）状况

数据类型

引用者：

DECLARE_语句
DECSIGN_语句
函数语句

展开

附加信息

版本 1.0.0
类型 Visual Basic
更新时间 2024-12-14
大小 67.04KB
来自于 Github