K8S 的網(wǎng)絡(luò)特征:
每個(gè)POD 一個(gè)IP (IP peer POD)
所有POD 通過IP 直接訪問其他POD 而不管POD 是否在同一臺(tái)物理機(jī)上
POD 內(nèi)的所有容器共享一個(gè)LINUX NET NAMESPACE (網(wǎng)絡(luò)堆棧), POD 內(nèi)的容器, 都可以使用localhost 來訪問pod 內(nèi)的其他容器.
K8S 對集群網(wǎng)絡(luò)的要求:
- 所有容器都可以在不用NAT 的方式下訪問其他容器
- 所有節(jié)點(diǎn)都可以在不用NAT的方式下同所有容器通信,反之亦然
- 容器的地址和別人看到的地址是同一個(gè)地址
kubernetes 網(wǎng)絡(luò)實(shí)現(xiàn)
POD 間通信網(wǎng)絡(luò)模型

NODE 間通信網(wǎng)絡(luò)模型

ip1 ip2 都存在 etcd中
K8S 不同node 中pod 相互通信需要滿足的條件如下
- 整個(gè)K8S集群中的POD IP 分配不能有沖突
- 找到一種辦法,將 POD 的 IP 和所在的 NDOE 的 IP 關(guān)聯(lián)起來, 通過這個(gè)關(guān)聯(lián)讓 POD 相互訪問
條件1 要求NODE 中的docker0 的網(wǎng)橋地址不能沖突
條件2 要求 POD 中的數(shù)據(jù)在出發(fā)時(shí),需要有一個(gè)機(jī)制能夠知道對方 POD 的 IP 地址在哪個(gè)NODE上
滿足條件的扁平化網(wǎng)絡(luò)拓?fù)淙缦?/p>

默認(rèn)docker0 的網(wǎng)絡(luò)為 172.17.0.0/16 的網(wǎng)段. 每個(gè)容器都在這個(gè)子網(wǎng)內(nèi)獲得 IP 并且將 docker0 作為網(wǎng)關(guān)
docker 宿主機(jī)不需要知道任何關(guān)于docker 0 的信息, 因?yàn)閐ocker 宿主機(jī)對任何容器發(fā)出的數(shù)據(jù),在物理卡上都做了 IP 偽裝(masquerade 隱含nat),也就是說其他任何node看到的數(shù)據(jù)包來源都是宿主機(jī)的物理網(wǎng)卡IP
這個(gè)模型的缺點(diǎn)是, 需要使用nat技術(shù)
K8S 模型中,每個(gè) NODE 上的 docker0 都是可以被路由到的, 也就是說, 在部署一個(gè) POD 時(shí), 在同一個(gè)集群內(nèi), 各個(gè)主機(jī)都可以訪問其他主機(jī)上的 POD IP, 并不需要在主機(jī)上做端口映射.
我們可以把NODE 看作交換機(jī)網(wǎng)絡(luò)模型看起來就是下面這個(gè)樣子

在node中,我們目前采用直接路由的方式來實(shí)現(xiàn).在每個(gè)node上配置講臺(tái)路由
例如在192.168.1.10 上配置
route add -net 10.1.20.0 netmask 255.255.255.0 gw 192.168.1.20
route add -net 10.1.30.0 netmask 255.255.255.0 gw 192.168.1.30
當(dāng)我們啟動(dòng)一個(gè)POD ,要求POD 下的所有容器都使用同一個(gè)網(wǎng)絡(luò)命名空間,以及同一個(gè)IP,所以必須要使用容器網(wǎng)絡(luò)的 container 模式. 如果將所有 pod 中的容器做成一個(gè)鏈的結(jié)構(gòu), 中間任何一個(gè)容器出問題, 都會(huì)引起連鎖反映, 所以在每個(gè) POD 中都引入一個(gè) google_containers/pause 其他容器都鏈接到這個(gè)容器, 由 google_containers/pause 來負(fù)責(zé)端口規(guī)劃和映射
POD 內(nèi)部的網(wǎng)絡(luò)模型為

pause 容器用于接管pod的endpoint.
通過docker inpsect <id> | grep NetworkMod 查看pause 容器的網(wǎng)絡(luò)模式,可以看到使用的是bridge 而 業(yè)務(wù)容器 docker inpsect < 業(yè)務(wù)容器id> | grep NetworkMod 使用的是 container:<長ID>
Service 的網(wǎng)絡(luò)信息
當(dāng)在K8S中創(chuàng)建一個(gè)service(非 NODEPORT) 之后, K8S 會(huì)為每個(gè) service 分配一個(gè)cluster IP
roger@microk8s:~$ kubectl get service
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
default-http-backend ClusterIP 10.152.183.69 <none> 80/TCP 11d
http-svc ClusterIP 10.152.183.164 <none> 80/TCP 11d
IP 地址段為 apiserver 啟動(dòng)時(shí), --server-cluster-ip-range 所指定的 IP 段,這個(gè) IP 段不能和 docker0 的 IP 段沖突, 這個(gè)網(wǎng)段不會(huì)在 物理網(wǎng)絡(luò)和 docker0 之間路由. 這個(gè)portal network 的意義是讓容器流量都指向默認(rèn)的網(wǎng)關(guān),也就docker0
查看iptables-save 數(shù)據(jù)
:KUBE-POSTROUTING - [0:0]
...
-A KUBE-PORTALS-CONTAINER -d 10.152.183.69/32 -p tcp -m comment --comment "default/default-http-backend:" -m tcp --dport 80 -j REDIRECT --to-ports 37853
-A KUBE-PORTALS-CONTAINER -d 10.152.183.164/32 -p tcp -m comment --comment "default/http-svc:http" -m tcp --dport 80 -j REDIRECT --to-ports 35667
-A KUBE-PORTALS-CONTAINER -d 10.152.183.1/32 -p tcp -m comment --comment "default/kubernetes:https" -m tcp --dport 443 -j REDIRECT --to-ports 40441
...
-A KUBE-PORTALS-HOST -d 10.152.183.69/32 -p tcp -m comment --comment "default/default-http-backend:" -m tcp --dport 80 -j DNAT --to-destination 192.168.10.5:37853
-A KUBE-PORTALS-HOST -d 10.152.183.164/32 -p tcp -m comment --comment "default/http-svc:http" -m tcp --dport 80 -j DNAT --to-destination 192.168.10.5:35667
-A KUBE-PORTALS-HOST -d 10.152.183.1/32 -p tcp -m comment --comment "default/kubernetes:https" -m tcp --dport 443 -j DNAT --to-destination 192.168.10.5:40441
可以發(fā)現(xiàn), 到三個(gè)服務(wù)的流量都被重定向到一個(gè)隨機(jī)端口, 37853, 35667, 40441 . 這幾個(gè)端口都是由kube-proxy 創(chuàng)建的, kube-proxy 服務(wù)會(huì)為每個(gè)創(chuàng)建的service 都關(guān)聯(lián)一個(gè)隨機(jī)端口,并監(jiān)聽那個(gè)特定的端口, 為服務(wù)創(chuàng)建相關(guān)聯(lián)的負(fù)載均衡.

注意, node3 的kubeproxy 并未參與此次交互. node1 的kube-proxy 起到了負(fù)載均衡的作用
如果文章對您有幫助,請點(diǎn)一下下面的 "喜歡"