1.為什么使用TPROXY才能代理UDP
在進行TCP的代理時,只要在NET表上無腦進行REDIRECT就好了。例如使用ss-redir,你只要把tcp的流量redirect到ss-redir監(jiān)聽的端口上就OK了。但是當(dāng)你使用這種方法的時候,就會不正常,因為對于UDP進行redirect之后,原始的目的地址和端口就找不到了。
這是為什么呢?
ss-redir的原理很簡單:使用iptables對PREROUTING與OUTPUT的TCP/UDP流量進行REDIRECT(REDIRECT是DNAT的特例),ss—redir在捕獲網(wǎng)絡(luò)流量后,通過一些技術(shù)手段獲取REDIRECT之前的目的地址(dst)與端口(port),連同網(wǎng)絡(luò)流量一起轉(zhuǎn)發(fā)至遠程服務(wù)器。
針對TCP連接,的確是因為Linux Kernel連接跟蹤機制的實現(xiàn)才使獲取數(shù)據(jù)包原本的dst和port成為可能,但這種連接跟蹤機制并非只存在于TCP連接中,UDP連接同樣存在,conntrack -p udp便能看到UDP的連接跟蹤記錄。內(nèi)核中有關(guān)TCP與UDP的NAT源碼/net/netfilter/nf_nat_proto_tcp.c和/net/netfilter/nf_nat_proto_udp.c幾乎一模一樣,都是根據(jù)NAT的類型做SNAT或DNAT。
那這究竟是怎么一回事?為什么對于UDP連接就失效了呢?
回過頭來看看ss-redir有關(guān)獲取TCP原本的dst和port的源碼,核心函數(shù)是getdestaddr:
static int
getdestaddr(int fd, struct sockaddr_storage *destaddr)
{
socklen_t socklen = sizeof(*destaddr);
int error = 0;
error = getsockopt(fd, SOL_IPV6, IP6T_SO_ORIGINAL_DST, destaddr, &socklen);
if (error) { // Didn't find a proper way to detect IP version.
error = getsockopt(fd, SOL_IP, SO_ORIGINAL_DST, destaddr, &socklen);
if (error) {
return -1;
}
}
return 0;
}
在內(nèi)核源碼中搜了下有關(guān)SO_ORIGINAL_DST的東西,看到了getorigdst:
static int
getorigdst(struct sock *sk, int optval, void __user *user, int *len)
{
const struct inet_sock *inet = inet_sk(sk);
const struct nf_conntrack_tuple_hash *h;
struct nf_conntrack_tuple tuple;
memset(&tuple, 0, sizeof(tuple));
lock_sock(sk);
tuple.src.u3.ip = inet->inet_rcv_saddr;
tuple.src.u.tcp.port = inet->inet_sport;
tuple.dst.u3.ip = inet->inet_daddr;
tuple.dst.u.tcp.port = inet->inet_dport;
tuple.src.l3num = PF_INET;
tuple.dst.protonum = sk->sk_protocol;
release_sock(sk);
/* We only do TCP and SCTP at the moment: is there a better way? */
if (tuple.dst.protonum != IPPROTO_TCP &&
tuple.dst.protonum != IPPROTO_SCTP) {
pr_debug("SO_ORIGINAL_DST: Not a TCP/SCTP socket\n");
return -ENOPROTOOPT;
}
We only do TCP and SCTP at the moment。Oh,shit!只針對TCP與SCTP才能這么做,并非技術(shù)上不可行,只是人為地阻止罷了。
2.TPROXY
為了在redirect UDP后還能夠獲取原本的dst和port,ss-redir采用了TPROXY。Linux系統(tǒng)有關(guān)TPROXY的設(shè)置是以下三條命令:
ip rule add fwmark 0x2333/0x2333 pref 100 table 100
ip route add local default dev lo table 100
iptables -t mangle -A PREROUTING -p udp -j TPROXY --tproxy-mark 0x2333/0x2333 --on-ip 127.0.0.1 --on-port 1080
大意就是在mangle表的PREROUTING中為每個UDP數(shù)據(jù)包打上0x2333/0x2333標志,之后在路由選擇中將具有0x2333/0x2333標志的數(shù)據(jù)包投遞到本地環(huán)回設(shè)備上的1080端口;對監(jiān)聽0.0.0.0地址的1080端口的socket啟用IP_TRANSPARENT標志,使IPv4路由能夠?qū)⒎潜緳C的數(shù)據(jù)報投遞到傳輸層,傳遞給監(jiān)聽1080端口的ss-redir。IP_RECVORIGDSTADDR與IPV6_RECVORIGDSTADDR則表示獲取送達數(shù)據(jù)包的dst與port。
可問題來了:要知道m(xù)angle表并不會修改數(shù)據(jù)包,那么TPROXY是如何做到在不修改數(shù)據(jù)包的前提下將非本機dst的數(shù)據(jù)包投遞到換回設(shè)備上的1080端口呢?
這個問題在內(nèi)核中時如何實現(xiàn)的,還待研究,但是確定是TPROXY做了某些工作。
TPROXY主要功能:
- 重定向一部分經(jīng)過路由選擇的流量到本地路由進程(類似NAT中的REDIRECT)
- 在非本地IP上起監(jiān)聽。監(jiān)聽后就可以轉(zhuǎn)發(fā)了(神奇吧)
TPROXY要解決的兩個重要的問題
- 1.套接字如何監(jiān)聽到非本地IP地址。
先用setsockopt函數(shù)為套接字設(shè)置IP_TRANSPARENT標識,再去監(jiān)聽0.0.0.0地址這樣的方式來實現(xiàn)監(jiān)聽任意IP。 - 2.如何獲取的原始目標的端口 。
先調(diào)用setsockopt (s, IPPROTO_IP, IP_RECVORIGDSTADDR, &n, sizeof(int))函數(shù)為套接字設(shè)置IP_RECVORIGDSTADDR標識,然后通過recvmsg函數(shù)從tproxy那邊接受發(fā)過來的msghdr結(jié)構(gòu)體信息,并循環(huán)遍歷cmsghdr成員最終獲取到原始目標的地址和端口,也就是說tproxy會向msghdr(附屬數(shù)據(jù)結(jié)構(gòu))填入原始目標ip和端口信息,再通過sendmsg函數(shù)發(fā)送給代理應(yīng)用。
參考:
https://blog.csdn.net/ts__cf/article/details/78942294
https://vvl.me/2018/06/09/from-ss-redir-to-linux-nat/