場景描述

image.png
linux上部署vxlan涉及兩個部分:
- overlay網(wǎng)絡配置
- vxlan隧道
overlay網(wǎng)絡要支持隨意配置且與主機網(wǎng)絡隔離,vxlan隧道要使用本機IP地址作為vtep ip。
網(wǎng)絡隔離顯然要使用netns,當然我們也可以使用docker間接使用netns。
開始之前
- 內(nèi)核vxlan module啟用的端口設(shè)置為4789
cat /sys/module/vxlan/parameters/udp_port
rmmod vxlan && modprobe vxlan udp_port=4789
- 放通iptables
iptables -t filter -I FORWARD -j ACCEPT
vxlan組網(wǎng)的幾種方案
以本地接口地址為192.12.34.2/24, overlay遠端地址為10.1.1.14舉例。
路由指向vxlan隧道(不推薦)

image.png
- 路由指向vxlan隧道
- 配置靜態(tài)ARP作為內(nèi)層目的MAC,進入隧道后直接封裝vxlan報文轉(zhuǎn)發(fā)
命令配置示例:
# S1: 配置overlay地址,IP地址配置到任意接口即可
ip addr add 192.12.34.2/24 dev lo
# S2: 創(chuàng)建vxlan隧道
ip link add vxlan_tunnel type vxlan id 67185 remote 10.29.46.21 local 10.22.0.47 dstport 4789 dev eth1
ip link set vxlan_tunnel up
ip link set dev vxlan_tunnel addr 00:12:34:56:78:90
# S3: 配置路由
ip route add 10.1.0.0/16 dev vxlan_tunnel
# S4: 配置靜態(tài)ARP
ip neigh add 10.1.1.14 lladdr 1a:1b:1c:1d:1e:1f dev vxlan_tunnel
# ping
ping 10.1.1.14 -I192.12.34.2
方案缺陷
- 無法使用netns
- vxlan隧道必須綁定本地接口地址eth1,所以vxlan隧道不能使用netns
- overlay路由指向vxlan隧道,所以overlay地址必須跟vxlan隧道在同一個netns。既然vxlan隧道不能使用netns,那overlay地址也不能使用netns。
- 必須配置ARP明細
vxlan隧道內(nèi)轉(zhuǎn)發(fā)依靠靜態(tài)ARP,所以目的IP都需要配置靜態(tài)ARP。本例中10.1.0.0/16內(nèi)所有的IP都要配置靜態(tài)ARP,好在多個IP可以配置相同的mac地址,不會沖突# 多個IP可以配置相同的MAC地址 # ip neigh | grep 1a 10.1.1.14 dev vxlan_tunnel lladdr 1a:1b:1c:1d:1e:1f PERMANENT 10.1.1.15 dev vxlan_tunnel lladdr 1a:1b:1c:1d:1e:1f PERMANENT
二層橋接

image.png
linux通過veth和bridge連接兩個netns。我們自然想到了橋接的方案。橋接方案的轉(zhuǎn)發(fā)原理:
- overlay netns內(nèi)配置overlay地址和overlay互聯(lián)地址
- overlay netns內(nèi),路由指向overlay互聯(lián)地址
- overlay互聯(lián)地址通過bridge與vxlan隧道二層打通
命令配置示例:
## s1: create netns, network, net-vpc<id>
ip netns add net-vpc67185
ip netns exec net-vpc67185 ip link set dev lo up
## s2: create bridge, br-vpc<id>
ip link add br-vpc67185 type bridge
ip link set dev br-vpc67185 up
## s3: create vxlan and attach to bridge
ip link add vxlan-vpc67185 type vxlan id 67185 remote 10.29.46.21 local 10.22.0.47 dstport 4789 dev eth1
ip link set vxlan-vpc67185 up
brctl addif br-vpc67185 vxlan-vpc67185
## s4: create veth, and attach to bridge and netns
ip link add tap-vpc67185 type veth peer name veth-vpc67185
ip link set veth-vpc67185 master br-vpc67185
ip link set veth-vpc67185 up
ip link set tap-vpc67185 name eth0 netns net-vpc67185
ip netns exec net-vpc67185 ip link set eth0 up
## s5: set mac
ip netns exec net-vpc67185 ip link set dev eth0 addr 00:12:34:56:78:90
## s6: set secondary ip address
ip netns exec net-vpc67185 ip addr add 169.254.0.201/24 dev eth0
## s7: set arp
ip netns exec net-vpc67185 ip neigh add 169.254.0.200 lladdr 1a:1b:1c:1d:1e:1f dev eth0
## s8: set ip and route
ip netns exec net-vpc67185 ip addr add 192.12.34.2/24 dev eth0
ip netns exec net-vpc67185 ip route add 0.0.0.0/0 via 169.254.0.200 src 192.12.34.2
## ping
ip netns exec net-vpc67185 ping 10.1.1.14
二層橋接方案的優(yōu)勢
- 與主機網(wǎng)絡空間隔離
- 主機netns下僅創(chuàng)建bridge和vxlan隧道。bridge和vxlan隧道都不需配置IP地址
- overlay地址和路由都在獨立的netns下配置
- 僅需配置默認路由
- 示例中配置了overlay靜態(tài)arp,實際上overlay arp可以自學習
- 只需配置一條默認路由即可
踩過的坑
- linux vxlan模塊默認啟用的端口不是4789
- iptables默認攔截了udp協(xié)議報文
- vxlan隧道dev錯誤的指向了eth0,且eth0未配置IP地址,此時雖然會封裝vxlan報文,但是會直接請求遠端vtep的ARP