Postgresql是用一个简单的"每个用户对应一个进程"的client/server 模型实现的。在这种模式里一个客户端进程只是与一个服务器进程联接。因为我们不知道具体要建立多少个联接,所以我们不得不利用一个主进程 在每次联接请求时派生出一个新的服务器进程来。这个主进程叫做postmaster,它监听着一个特定TCP/IP 端口等待进来的联接。每当检测到一个联接请求时,postmaster 进程派生出一个新的叫postgres的服务器进程。服务器任务(postgres进程)相互之间使用信号灯和共享内存进行通讯,以确保在并行的数据访问过程中的数据完整性。
介绍下包含后台服务器端代码的文件夹:src/backend ,整理其各子文件夹作用:
access: 存储访问,支持堆,索引,和事务对数据的存取。
bootstrap: 系统初始化
catalog: 系统表以及操作。包含用于操作系统表和系统目录的函、数表、索引、过程、运算符、类型。它们都是低层的函数,通常由上层将用户请求格式化为预定义格式的函数调用。
command: 各种管理命令,不需要executor执行的命令。这些命令是不需要复杂处理的sql命令,包括copy,alter,create table等等。调用这一部分代码时使用由parser生成的结构。大多数函数先做一些处理,然后就调用catalog目录下的一些低层函数来完成实际的工作。
executor: 执行器,执行来自optimizer的复杂的节点形式的查询计划。处理select,insert,update,和delete语句. 处理这些语句的操作包括堆扫描、索引扫描、排序、连接表、分组、计算集函数和唯一性处理。
libpq: 通信接口,处理后台服务器与客户进程之间的通讯。
Main: 主程序,将控制转到postmaster或postgres
Nodes: 查询处理过程中采用的大量抽象数据结构(查询树,连接树,查询计划)。Postgresql将SQL查询存储到称为节点的结构中。
parse: 语法分析
port: 各种os平台的移植
postmaster: 守护进程,控制postgres服务器启动/终止。创建共享内存,然后循环等待连接请求。请求到达时,启动一个postgres服务器进程,由它来处理这个连接。
rewrite: 重写(postgresql的规则系统实现,它的视图就是基于规则系统的)
storage: 存储,缓冲区,进程间通信,管理各种类型的存储系统。
tcop: 命令处理,将请求分派到合适的模块。postgres后台服务进程的主要处理部分,它调用parser,optimizer,executor和commands中的函数。
utils: 辅助性的工具,支持功能。
optimizer: 创建查询路径和查询计划。使用parser的输出来为executor生成优化了的查询计划。
regex: 正则表达式库
再来说说执行过程。
数据库一运行,主函数进去main->PostmasterMain-> ServerLoop 等待连接的到来。
PostmasterMain运行过程:
postgresMain怎么被调用?
其一:main->PostgresMain
if (argc > 1 && strcmp(argv[1],"--single") == 0)
exit(PostgresMain(argc,argv,get_current_username(progname)));
其二:main->SubPostmasterMain->BackendRun->PostgresMain
#ifdef EXEC_BACKEND
if (argc > 1 && strncmp(argv[1],"--fork",6) == 0)
exit(SubPostmasterMain(argc,argv));
#endif
EXEC_BACKEND什么意思,还没看明白,主要是找不到定义的地方。有知道的请告知,谢谢。
PostgresMain运行过程如下: