

手把手教你构建 C 语言编译器(1)- 设计
source link: https://lotabout.me/2015/write-a-C-interpreter-1/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

这是“手把手教你构建 C 语言编译器”系列的第二篇,我们要从整体上讲解如何设计我们的 C 语言编译器。
手把手教你构建 C 语言编译器系列共有10个部分:
首先要说明的是,虽然标题是编译器,但实际上我们构建的是 C 语言的解释器,这意味着我们可以像运行脚本一样去运行 C 语言的源代码文件。这么做的理由有两点:
- 解释器与编译器仅在代码生成阶段有区别,而其它方面如词法分析、语法分析是一样的。
- 解释器需要我们实现自己的虚拟机与指令集,而这部分能帮助我们了解计算机的工作原理。
编译器的构建流程
一般而言,编译器的编写分为 3 个步骤:
- 词法分析器,用于将字符串转化成内部的表示结构。
- 语法分析器,将词法分析得到的标记流(token)生成一棵语法树。
- 目标代码的生成,将语法树转化成目标代码。
已经有许多工具能帮助我们处理阶段1和2,如 flex 用于词法分析,bison 用于语法分析。只是它们的功能都过于强大,屏蔽了许多实现上的细节,对于学习构建编译器帮助不大。所以我们要完全手写这些功能。
所以我们会依照以下步骤来构建我们的编译器:
- 构建我们自己的虚拟机以及指令集。这后生成的目标代码便是我们的指令集。
- 构建我们的词法分析器
- 构建语法分析器
编译器框架
我们的编译器主要包括 4 个函数:
next()
用于词法分析,获取下一个标记,它将自动忽略空白字符。program()
语法分析的入口,分析整个 C 语言程序。expression(level)
用于解析一个表达式。eval()
虚拟机的入口,用于解释目标代码。
这里有一个单独用于解析“表达式”的函数 expression
是因为表达式在语法分析中相对独立并且比较复杂,所以我们将它单独作为一个模块(函数)。下面是相应的源代码:
#include <stdio.h>
#include <stdlib.h>
#include <memory.h>
#include <string.h>
int token; // current token
char *src, *old_src; // pointer to source code string;
int poolsize; // default size of text/data/stack
int line; // line number
void next() {
token = *src++;
return;
}
void expression(int level) {
// do nothing
}
void program() {
next(); // get next token
while (token > 0) {
printf("token is: %c\n", token);
next();
}
}
int eval() { // do nothing yet
return 0;
}
int main(int argc, char **argv)
{
int i, fd;
argc--;
argv++;
poolsize = 256 * 1024; // arbitrary size
line = 1;
if ((fd = open(*argv, 0)) < 0) {
printf("could not open(%s)\n", *argv);
return -1;
}
if (!(src = old_src = malloc(poolsize))) {
printf("could not malloc(%d) for source area\n", poolsize);
return -1;
}
// read the source file
if ((i = read(fd, src, poolsize-1)) <= 0) {
printf("read() returned %d\n", i);
return -1;
}
src[i] = 0; // add EOF character
close(fd);
program();
return eval();
}
上面的代码看上去挺复杂,但其实内容不多。它的流程为:读取一个文件(内容为 C 语言代码),逐个读取文件中的字符,并输出。这里需要的是注意每个函数的作用,后面的文章中,我们将逐个填充每个函数的功能,最终构建起我们的编译器。
本节的代码可以在 Github 上下载,也可以直接 clone
git clone -b step-0 https://github.com/lotabout/write-a-C-interpreter
这样我们就有了一个最简单的编译器:什么都不干的编译器,下一章中,我们将实现其中的eval
函数,即我们自己的虚拟机。
Recommend
-
11
Table of Contents恭喜你完成了自己的 C 语言编译器,本章中我们发一发牢骚,说一说编写编译器值得注意的一些问题;编写编译器时遇到的一些难题。 手把手教你构建 C 语言编译器系列共有10个部分: 虚拟机与目标代码 整个系...
-
14
Table of Contents这是整个编译器的最后一部分,解析表达式。什么是表达式?表达式是将各种语言要素的一个组合,用来求值。例如:函数调用、变量赋值、运算符运算等等。 表达式的解析难点有二:一是运算符的优先级问题,二是如何将表达式编译...
-
6
手把手教你构建 C 语言编译器(7)- 语句Table of Contents整个编译器还剩下最后两个部分:语句和表达式的解析。它们的内容比较多,主要涉及如何将语句和表达式编译成汇编代码。这章讲解语句的解析,相对于表达式来说它还是较为...
-
12
Table of Contents由于语法分析本身比较复杂,所以我们将它拆分成 3 个部分进行讲解,分别是:变量定义、函数定义、表达式。本章讲解函数定义相关的内容。 手把手教你构建 C 语言编译器系列共有10个部分: EBNF 表示 这是...
-
14
Table of Contents本章中我们用 EBNF 来大致描述我们实现的 C 语言的文法,并实现其中解析变量定义部分。 由于语法分析本身比较复杂,所以我们将它拆分成 3 个部分进行讲解,分别是:变量定义、函数定义、表达式。 手把手教你构建 C...
-
14
Table of Contents本章我们将讲解递归下降的方法,并用它完成一个基本的四则运算的语法分析器。 手把手教你构建 C 语言编译器系列共有10个部分: 什么是递归下降 传统上,编写语法分析器有两种方法,一种是自顶向下,一种...
-
10
Table of Contents本章我们要讲解如何构建词法分析器。 手把手教你构建 C 语言编译器系列共有10个部分: 什么是词法分析器 简而言之,词法分析器用于对源码字符串做预处理,以减少语法分析器的复杂程度。 词法分析...
-
15
Table of Contents这是“手把手教你构建 C 语言编译器”系列的第三篇,本章我们要构建一台虚拟的电脑,设计我们自己的指令集,运行我们的指令集,说得通俗一点就是自己实现一套汇编语言。它们将作为我们的编译器最终输出的目标代码。 手把手教...
-
9
Table of Contents“手把手教你构建 C 语言编译器” 这一系列教程将带你从头编写一个 C 语言的编译器。希望通过这个系列,我们能对编译器的构建有一定的了解,同时,我们也将构建出一个能用的 C 语言编译器,尽管有许多语法并不支持。 手把手...
-
8
年度梳理之文化篇:手把手教你构建企业文化 | 未来组织未来组织 · 36分钟前36氪“未来组织”栏目为您梳理了全年精华文章,本篇从文化角度带您高效获取相关内容。
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK