# 后端开发工程师

# 架构设计

# 缓存

通读 (read-through) 缓存对应用透明，常见的有：CDN、反向代理缓存。旁路 (cache-aside) 缓存对应用不透明，应用首先从缓存中读数据，若没有命中则去数据源取数据，取完将结果存入缓存。

旁路缓存可以由应用使用哈希表来实现，这时候数据缓存在应用的堆空间内。大型互联网应用需要的缓存数据量太大，堆空间装不下，这时候可以使用远程的分布式缓存 (如：Redis、Memcached)。

分布式缓存会将数据“拆分”并存储在多台机器上，因此读取数据前要先进行路由计算，数据拆分算法和路由算法本质都是哈希算法。余数哈希算法虽然简单，但无法很好地处理服务器扩容的场景，因此我们可以采用一致性哈希算法。

缓存会带来数据脏读的问题，主要解决办法有：过期失效、失效通知。一般业务场景都可以容忍短时间的数据不一致，所以过期失效是最常用的办法，失效通知方法会增加系统设计复杂度。

# RPC

RPC 就是让业务像调用本地函数一样去使用远程计算机提供的服务。发起 RPC 调用请求的那一方叫做调用方，被调用的一方叫做服务提供方。

RPC 的核心有两点：

数据序列化框架
网络传输协议

传输协议可以直接用 HTTP 协议，也可以基于 TCP 定制私有协议。

序列化/反序列化的方法有很多，各语言都有自带方法序列化为二进制。但事情远没有那么简单，要考虑到性能、压缩率、跨语言、向下兼容、大小端等。所以出现了一些序列化框架：

Protobuf
Hessian
Thrift
Avro
等等

可以从以下几个角度来决定如何选择序列化框架：

序列化/反序列化的性能
二进制数据的体积大小，这决定了网络传输的效率
向下兼容，当消息格式升级后，旧版本的客户端还需要能正常使用

# 数据库

# SQL

SQL 基于关系代数，所以只能用于 RDBMS。SQL 是一个标准，目前常用的是 SQL 92 和 SQL 99。SQL 分为 DDL、DML、DCL、TCL，水还是很深的，最常用的 select 语句并不属于这四者，而是属于 DQL。

# 索引

索引可以提高数据查询的效率，内部实现有哈希表、有序数组、搜索树、跳表。

哈希表只适用于等值查询的场景 (如 Redis、Memcached)，还需要解决哈希冲突的问题。

有序数组通过二分查找对应的值，适用于范围查询的场景 O(logN)，更新/插入数据效率很低 O(N)。因此更适用于不会再变化的静态数据 (如世界人口历史数据)。

搜索树又分为：二叉搜索树、N叉搜索树、红黑树、B+树、LSM。

# KV 数据库

【存什么数据】键值数据库中，数据一定是以 Key-Value 的形式存储的，Key 一定是 String 类型，而 Value 不一定。

Redis 的 Value 可以是 String、哈希表、列表、集合等类型
Memcached 的 Value 只能是 String 类型

【存在哪里】数据可以存在内存或外存中。

Redis、Memcached 都是放在内存里面；速度很快，但数据有丢失风险；适用于缓存等数据丢失不敏感场景
放在外存里面
另一种方案是购买非易失性内存 (很贵)

【如何访问】单机型数据库还是联机型数据库？

RocksDB 是单机型数据库，提供动态库文件给业务访问
Memcached 和 Redis 是联机型数据库，通过网络协议来访问

【如何根据 key 找到 value】这就涉及到索引的概念，索引的常见实现包括哈希表、B+树、跳表、字典树。

Redis、Memcached 采用哈希表
RocksDB 采用跳表

# Redis 的哈希表索引

作为 KV 数据库，Redis 使用哈希表实现 Key 到 Value 的快速索引，使用拉链法解决哈希冲突。

【rehash】拉链法中的链表过长，会导致性能/吞吐量下降。为了解决这个问题，Redis 使用了 rehash 的机制。内部有 hash1 和 hash2 两个哈希表，当 hash1 的链表过长时，为 hash2 分配两倍的空间，同时将 hash1 的数据拷贝到 hash2。通过两个哈希表轮换使用，实现了哈希表的扩容，减少冲突/减少链表长度。

【渐进式rehash】rehash 涉及到哈希表的整体复制，会导致线程阻塞/单次响应时间长。为了解决这个问题，Redis 采用渐进式 rehash 机制，将大量数据拷贝操作分摊到每次请求中。

# Redis 的单线程

我们平时说 Redis 单线程，指的是其网络 I/O 和数据读写操作是放在同一个线程里面的。通过多路复用，保证单线程下也能实现高吞吐量。

其内部是基于非阻塞式 Socket + select/epoll 实现的。

# 聚合查询

在 SQL 中，通过 group by + 聚合函数来实现。

在 MongoDB 中，通过 Aggregation Pipeline 来实现，一个 Pipeline 包含多个 stage。

# 集群

集群在数据库中有两个用途：

提高可用性
提升数据读写性能

MongoDB 通过副本集 (opens new window)的方式，当主节点挂了，从节点会进行选举选出一个新的主节点。增加副本集的节点数量可以提高读性能，不能提高写性能。

Redis 有哨兵 (Sentinel) 机制，主库挂了之后会选一个从库转为主库。

Redis 3.0 官方实现了一个切片集群：Redis Cluster (opens new window)。但在这之前民间也实现了一些切片集群。

# 数据备份和恢复

在 Redis 中有两种备份机制

RDB 是对内存做一个全量备份，恢复的时候直接恢复即可
AOF 是将每个命令 append 到日志文件的末尾，恢复的时候将命令一个个取出执行即可恢复

下面讨论一个重要议题：备份过程中是否会阻塞数据库访问？

# Java 生态

# Web 后端开发

# Web 容器

JBoss 和 WebLogic 不仅包含 Servlet 容器的功能，还包含 EJB 容器的功能，是完整的 Java EE 应用服务器。Tomcat 和 Jetty 只包含 Servlet 容器的功能，不包含 EJB 容器的功能，所以可以称之为轻量级容器。

在早期 Java 程序员按照 Servlet + JSP 的规范编写代码，将编译后的 .class 文件打包成压缩文件 (.war 后缀) 发给运维人员；运维人员将 .war 文件放到 Tomcat 规定的某个目录下，然后启动 Tomcat，这样程序就上线了。

而在今天人们喜欢用程序内嵌的方式启动 Servlet 容器，这样 Tomcat 这种轻量级的容器就很吃香 (占用空间小)。

# Servlet

Servlet 规范约定一套使用 HTTP 协议的流程，定义了一些接口，业务代码基于这些接口编程，Tomcat 实现这些接口。这样业务代码就无需关心复杂的 HTTP 协议了，但这套流程会让我们的业务代码就不够灵活，难以实现个性化需求，为此 Servlet 提供了两种扩展机制：Filter 过滤器、Listener 监听器。

为了加深对 Servlet 的理解，我们做一个实验不使用 IDE 编写一个 Servlet 应用 (opens new window)。

# ORM

Hibernate 是一个 ORM 框架，问世时间早于 JPA 规范。JPA 规范出现后，Hibernate 被视为 JPA 规范的一种实现。

# Redis

在 Java 中通过 Jedis、Lettuce 访问 Redis。