从零搭建企业虚拟化平台——序章:背景、目标架构与全虚拟实验的可行性

本系列尝试以一个完整的工程项目为脉络,从零搭建一套企业级虚拟化平台:以 VMware vSphere 为计算与调度核心,辅以共享存储与高可用机制,并由 Active Directory 支撑统一身份与基础服务(DNS、NTP)。为使每一项技术选择都有据可依,全系列围绕一家虚构企业的真实诉求展开——架构中的每一个组件,都对应着这家企业必须解决的某个具体问题,而非为部署而部署。

需要先行说明的是,整套实验将完全在一台笔记本电脑上、以嵌套虚拟化(nested virtualization)的方式完成,不依赖任何额外的物理服务器。本篇作为序章,先交代背景设定与目标架构,并就「全虚拟是否可行」这一前提性问题给出结论。

背景设定

砚行物流是一家约三百人规模的区域仓配与电商企业(为贯穿实验而虚构)。其信息系统在多年自然生长之后,积累了若干典型的结构性问题。

业务系统分散运行于数台独立的物理服务器之上,彼此缺乏冗余,任意一台宕机都可能导致一条业务线停摆;全公司没有统一的身份体系,每台服务器各自维护一套本地账号,权限难以集中管控;内部名称解析长期依赖手工维护的 hosts 文件,随规模增长而日益不可靠;此外,由于缺乏统一的时间源,各主机时钟逐渐漂移,并由此引发了一些难以定位的偶发性身份认证失败。

公司因此决定重建底层基础设施,目标是建成一套具备高可用能力、可平滑扩展,并以统一身份与基础服务为支撑的虚拟化平台。本系列的全部工作,正是围绕这一目标依次展开。

目标架构

整套平台可以拆分为四个层面。

计算层由三台 ESXi 主机构成,统一由 vCenter Server 纳管并组成集群,作为承载所有虚拟机的基础。

存储层以 vSAN 为主——它将三台主机的本地磁盘聚合为一套分布式共享存储,使集群无需外置存储设备即可运行;同时,本系列也会以外置 iSCSI/NFS 存储作为对照,说明两条路线各自的取舍。

可用性层由 vSphere HA、DRS 与 vMotion 提供:主机故障时虚拟机自动在其余主机重启,负载在集群内自动均衡,并可在主机间无中断迁移。这一层的存在,正是为了回应「单点故障导致业务停摆」这一最初的痛点。

身份与基础服务层由冗余的域控制器(Domain Controller,DC)承载 Active Directory,并由 AD 集成的 DNS 与分层 NTP 提供名称解析与时间同步——它们既是这家企业所缺失的能力,也是上层平台稳定运行的前提。

网络则按功能划分为管理、vMotion、vSAN、业务、存储与客户端若干个相互隔离的网段,其设计与地址规划将在下一篇中详述。

整套实验环境包含的节点如下,可作为后续各篇的索引:

主机名 角色 数量
yx-fw01 边界防火墙与路由(出网、VLAN 间路由、临时 DNS/NTP) 1
yx-esxi01 ~ 03 ESXi 计算主机 3
yx-vc01 vCenter Server 1
yx-dc01 / yx-dc02 域控制器(AD、DNS、NTP) 2
yx-nas01 外置存储(TrueNAS,作存储路线对照) 1
yx-jump01 管理跳板机 1

实验平台:单机之上的嵌套

本系列的一个基本前提是:全部实验在一台笔记本电脑上完成,不借助任何额外硬件。具体而言,宿主机为一台配备 64 GB 内存与 NVMe 固态硬盘的 Windows 笔记本,其上运行 VMware Workstation Pro 作为最底层(L0)的虚拟化平台,再于其中嵌套部署 ESXi、vCenter、域控与存储等全部节点。

就资源而言,64 GB 内存在扣除宿主操作系统与 Workstation 自身的开销之后,实际可分配给虚拟机的约为 50 GB。因此实验并非将全部节点长期同时开启,而是常驻一套核心(vCenter 与三台 ESXi、一台域控,约 48 GB),其余节点按当前实验的需要临时启停。NVMe 固态硬盘在此并非可选项,而是硬性要求:嵌套环境中多台虚拟机叠加的磁盘 I/O,在机械硬盘上几乎无法运行。

嵌套虚拟化亦有若干不同于物理环境的注意事项——例如内层虚拟机之间的通信依赖宿主端口组开启混杂模式(Promiscuous Mode)、笔记本在持续高负载下的散热限制,以及运行期间不可令宿主进入睡眠等。这些将在下一篇环境搭建中具体展开。

许可的现实

在动手之前,有一项容易被忽略、却会直接影响方案可行性的前提需要厘清,即软件许可。

其一,VMware Workstation Pro 自 2024 年 11 月起已对包括商业在内的所有用途免费提供,无需许可密钥,当前版本为 26H1。这使得以它作为嵌套平台的地基,不再存在成本与合规上的顾虑。

其二,也是最关键的一点:Broadcom 虽于 2025 年重新提供了免费的 ESXi(vSphere Hypervisor 8.0U3e),但该免费版本无法接入 vCenter,亦无法被集中管理。而本系列的核心价值——集群、HA、DRS、vMotion 与 vSAN——无一不依赖 vCenter。因此免费 ESXi 在此并不适用。正确的做法是使用功能完整的 60 天评估授权(evaluation);若希望长期保留实验环境,则可考虑到期重建,或订阅 VMUG Advantage(约每年 200 美元)以获取可续期的实验室授权。这一点务必在动手之前想清楚,以免在演示集群特性时才发现授权不可用。

其三,本系列选用 vSphere 8.0U3 作为主线版本。更新的 vSphere 9 已经发布,但其变化更为激进,留待日后单独讨论。

需要提醒的是,上述许可政策——尤其是免费 ESXi 的供应方式与评估条款——在 Broadcom 收购 VMware 之后变动频繁。本文所述为截至 2026 年年中的情况,实际请以官方说明为准。

本系列路线图

按照搭建顺序,全系列共九篇:

  1. 序章(本篇):背景、目标架构与全虚拟实验的可行性。
  2. 实验环境搭建:宿主网络与中继干道、边界防火墙的部署,以及完整的地址与命名规划。
  3. ESXi 安装与基础配置:三台嵌套主机的安装、管理网络与主机时间同步。
  4. vCenter 与集群:vCenter Server 的部署,以及数据中心与集群的组建。
  5. 网络进阶:从标准交换机迁移至分布式交换机(vDS),并完成 VLAN 划分。
  6. 存储:vSAN 的构建,以及与外置 iSCSI/NFS 存储的对照。
  7. 高可用:HA、DRS 与 vMotion 的配置与故障切换演示。
  8. AD 域控与 DNS:冗余域控的部署、林域设计,以及由 AD 集成 DNS 接管名称解析。
  9. NTP 与收尾:分层时间体系、Kerberos 时间偏差问题,以及备份、恢复与环境重置。

这一顺序并非随意排列。其背后存在一条清晰的依赖链——高可用依赖共享存储,共享存储依赖集群,集群依赖 vCenter,而 vCenter 的部署又依赖可正反向解析的 DNS 与准确的时间。理解了这条链,也就理解了为何各项工作必须以此先后落地。其中若干不甚直观的次序取舍,将在相应章节中说明。

结语

至此,背景、架构与前提均已明确。从下一篇起,我们将正式着手搭建:先打通宿主网络与边界服务,再逐层向上,直至这套平台能够完整地承载砚行物流的业务。