之前寫過一篇《通俗易懂TCP/IP(概述)》,廣受歡迎和好評,有網(wǎng)友催更,便抽空續(xù)寫IP章節(jié),回應(yīng)粉絲期待。 TCP/IP網(wǎng)絡(luò)模型TCP/IP網(wǎng)絡(luò)模型分為4層,自下而上分布為鏈路層(又叫網(wǎng)絡(luò)接口層)、網(wǎng)絡(luò)層、傳輸層、應(yīng)用層。
分層&協(xié)議對照OSI七層網(wǎng)絡(luò)模型和TCP/IP四層網(wǎng)絡(luò)模型的對應(yīng)關(guān)系如下圖,對應(yīng)層的常用協(xié)議也列于表中。 分層的目標(biāo)是隔離,通過分層實現(xiàn):下層對上層透明,而上層利用下層提供的能力。 分層的另一個優(yōu)點(diǎn)是協(xié)議復(fù)用,這種復(fù)用允許多種協(xié)議共存于同一基礎(chǔ)設(shè)施之中,復(fù)用可以發(fā)生在不同層,并在每層都有不同類型的標(biāo)識符區(qū)分,用于確定信息屬于哪個協(xié)議。 比如在鏈路層的數(shù)據(jù)幀(Frame)有一個協(xié)議標(biāo)識符字段,用來標(biāo)識鏈路層幀攜帶的協(xié)議是IP還是ARP;又比如在網(wǎng)絡(luò)層的IP數(shù)據(jù)報頭部有一個8位協(xié)議字段,標(biāo)識該IP數(shù)據(jù)報來自于TCP、還是UDP、亦或是ICMP、IGMP... 封裝數(shù)據(jù)在發(fā)送端從上到下經(jīng)過TCP/IP協(xié)議棧,遵循應(yīng)用層->TCP/UDP->IP->鏈路層的順序。 當(dāng)某層的一個協(xié)議數(shù)據(jù)單元(PDU)對象轉(zhuǎn)換為由底層攜帶的數(shù)據(jù)格式表示,這個過程稱為在相鄰低層的封裝,即上層被封裝對象作為不透明數(shù)據(jù)充當(dāng)?shù)讓拥腜ayload部分,封裝是層層包裹的過程。 每層都有自己的消息對象(PDU)的概念。
封裝的本質(zhì)是將來自上層的數(shù)據(jù)看成不透明、無須解釋的信息,經(jīng)過本層的處理,在上層PDU的前面加上本層協(xié)議的頭部,有些協(xié)議是增加尾部(鏈路層),頭部用于在發(fā)送時復(fù)用數(shù)據(jù),接收方基于各層封裝過程中增加頭部中的分解標(biāo)識符執(zhí)行分解。 具體到TCP傳輸數(shù)據(jù)而言,發(fā)送端的數(shù)據(jù)要經(jīng)過三次封裝。
分用數(shù)據(jù)到達(dá)接收端(是目的機(jī)器),會從下到上經(jīng)過TCP/IP協(xié)議棧,遵循鏈路層->IP->TCP/UDP->應(yīng)用層的順序。 接收端的數(shù)據(jù)還原也需要經(jīng)歷三次解封。
封裝發(fā)生在發(fā)送方,拆封(還原)發(fā)生在接收方。 消息邊界應(yīng)用層將協(xié)議攜帶的數(shù)據(jù)寫入消息,消息邊界是兩次寫入操作之間的位置或字節(jié)偏移量。 保留消息邊界的協(xié)議(UDP)在接收方能獲得發(fā)送方的消息邊界,而不保留消息邊界的協(xié)議(TCP)在接收方將不能獲得發(fā)送方的消息邊界。 比如發(fā)送端通過UDP協(xié)議先后發(fā)送2個大小分別為100、200字節(jié)的消息,接收端通過UDP協(xié)議接收數(shù)據(jù),將分2次分別接收到100、200字節(jié)的消息,但不保證接收100、200消息的先后順序。 而TCP是數(shù)據(jù)流協(xié)議,如果發(fā)送端通過TCP協(xié)議先后發(fā)送2個大小為100和200字節(jié)的消息,接收端會收到300字節(jié)數(shù)據(jù),但每次接收返回的不一定是100、200字節(jié)消息,接收端丟失了發(fā)送端的消息邊界。 網(wǎng)絡(luò)地址IP地址用于IP層,IPv4的IP地址是32位整數(shù),最多可以表示40多億個IP地址,按8位一字節(jié),則分為4字節(jié),每個字節(jié)是一個0~255的無符號整數(shù),所以可以表示為“abc.def.ghi.jkl”的點(diǎn)分十進(jìn)制格式,也可以表示為32位無符號整數(shù)。 點(diǎn)分十進(jìn)制和無符號32位無符號整數(shù)可以很容易換算。 IPv4地址空間分成五大類,A、B、C類用于Internet單播,D類地址供組播使用,E類地址保留。 IPv4的32位又被劃分為網(wǎng)絡(luò)號和主機(jī)號,可以把網(wǎng)絡(luò)號想象成到小區(qū)的郵政地址,而主機(jī)號想象成房間號。 鏈路層使用48bit的MAC地址,ARP和RARP用于IP地址和MAC地址之間的相互換算。 應(yīng)用程序編程接口操作系統(tǒng)通過提供編程接口(API)來支持應(yīng)用程序的網(wǎng)絡(luò)開發(fā),目前最流行的API是套接字(Socket),也叫Berkeley套接字。 Socket抽象層位于應(yīng)用層跟傳輸層之間,提供創(chuàng)建、綁定、監(jiān)聽、連接、發(fā)送、接收、關(guān)閉等常用方法。 Internet協(xié)議IP是TCP/IP協(xié)議族中的核心協(xié)議,為傳輸層提供IP數(shù)據(jù)報的交付能力,它負(fù)責(zé)將IP數(shù)據(jù)報從網(wǎng)絡(luò)一端傳遞到另一端,實現(xiàn)數(shù)據(jù)轉(zhuǎn)發(fā)。 IP的另一個作用是:在發(fā)送端,接收來自傳輸層的協(xié)議數(shù)據(jù)單元(PDU),添加IP首部封裝為IP數(shù)據(jù)報,交給協(xié)議族的下一層鏈路層。 在接收端(包括中間路由器),接收來自鏈路層的PDU,去掉IP首部,根據(jù)IP首部中的協(xié)議類型,將數(shù)據(jù)分發(fā)給TCP、UDP或者其他。 IP只是完成分組交換(轉(zhuǎn)發(fā)),如果你希望得到可靠性保證,IP會說:對不起,做不了。 發(fā)送一個IP數(shù)據(jù)報猶如寄一個快遞,只需把目的地收件人寫在快遞上,快遞公司會路由分發(fā),但中間有可能丟件,丟了不管,而且到了,也不會有確認(rèn),一切隨緣。 基于TCP/IP協(xié)議族構(gòu)建的網(wǎng)絡(luò),可以區(qū)分為端系統(tǒng)(兩邊的主機(jī))和中間系統(tǒng)(中間路由器),端主機(jī)實現(xiàn)網(wǎng)絡(luò)所有層,而路由器實現(xiàn)傳輸層之下的所有層,IP使用逐跳協(xié)議,IP之上的各層使用端到端協(xié)議。 路由器路由器工作于網(wǎng)絡(luò)層,是IP層的核心設(shè)備。 路由器有兩個或兩個以上的網(wǎng)絡(luò)接口,用于連接兩個或多個網(wǎng)絡(luò),負(fù)責(zé)將IP數(shù)據(jù)報(分組)從一個網(wǎng)絡(luò)接口轉(zhuǎn)發(fā)到另一個網(wǎng)絡(luò)接口。 帶有多網(wǎng)絡(luò)接口(網(wǎng)卡)的主機(jī)也能承擔(dān)轉(zhuǎn)發(fā)分組的功能,這種主機(jī)稱為作為路由器使用的主機(jī)。 如果把一個村莊比喻成一個小的局域網(wǎng),那路由器就相當(dāng)于連接村莊的橋梁,路由器屬于中間系統(tǒng),所以連接不同網(wǎng)絡(luò)的路由器需要實現(xiàn)不同的鏈路層協(xié)議,完成不同鏈路層的翻譯轉(zhuǎn)換功能。 另一方面,路由器實現(xiàn)鏈路層 網(wǎng)絡(luò)層這2層就夠了,而不必實現(xiàn)傳輸層和應(yīng)用層,這是由它的功能(實現(xiàn)分組交換)決定的。 每個IP分組都是一個IP數(shù)據(jù)報,包含發(fā)送方和接收方的第三層地址(IP地址),即32位的IPv4或128位的IPv6,IP數(shù)據(jù)報首部中的目的地址決定將該數(shù)據(jù)報發(fā)往何處,而做出決定和發(fā)送數(shù)據(jù)報到下一跳的過程叫轉(zhuǎn)發(fā),轉(zhuǎn)發(fā)依賴于路由表,是存儲于內(nèi)存中的一個數(shù)據(jù)結(jié)構(gòu)。 IP協(xié)議格式在貼出IP協(xié)議格式之前,我們可以設(shè)想一下,IP協(xié)議需要包括哪些信息,這比直接上圖+死記硬背要好。 根據(jù)之前封裝的描述,顯然,IP數(shù)據(jù)報應(yīng)該是包括IP首部 數(shù)據(jù)負(fù)載,而這個不透明的負(fù)載(Payload)來自于TCP、UDP或者其他。 所以我們講IP數(shù)據(jù)報格式,其實就是IP首部的組成和結(jié)構(gòu),因為數(shù)據(jù)負(fù)載來自于上層,而封裝的本質(zhì)要求上層的數(shù)據(jù)對下層隱藏、無須解釋,既然IP的Payload對于IP層透明,那自然沒什么可講的。 IP首部由各種不同用途和含義的字段組成。 因為IP分32位的IPv4和128位的IPv6,所以IP首部需要包括版本號字段用來區(qū)分這兩種情況。 因為IP負(fù)責(zé)分組轉(zhuǎn)發(fā),所以IP首部應(yīng)該包括目的IP地址,用于路由轉(zhuǎn)發(fā)邏輯的處理,另外接收端可能需要找到該分組的來源,所以也應(yīng)該包含來源IP地址。 TCP、UDP、ICMP、IGMP都通過IP數(shù)據(jù)報傳輸,所以在IP首部,需要包含一個協(xié)議字段,用于區(qū)分該IP數(shù)據(jù)報承載的是哪種類型的協(xié)議。 IP不糾錯,但是需要檢查錯誤,數(shù)據(jù)在傳輸過程中,有可能出錯,導(dǎo)致接收到的數(shù)據(jù)跟發(fā)送的不一樣,所以接收端需要有方法知道傳輸過程中,數(shù)據(jù)是否跟發(fā)送端一致,所以頭部校驗和字段也是必要的。 因為IP要處理分片和重組,所以IP首部需要包含相關(guān)信息,以支持該功能。 IP分IPv4和IPv6兩種,協(xié)議格式不同,本文講述以IPv4為主,先給一個IPv4的數(shù)據(jù)報圖,不帶選項的IP數(shù)據(jù)報頭部為20字節(jié)。 版本,IP協(xié)議的第一個字段都是版本字段,這也是IPv4和IPv6唯一相同的字段,IP數(shù)據(jù)報的版本字段為4對應(yīng)IPv4,為6對應(yīng)IPv6,主機(jī)或者路由器可以根據(jù)版本字段,分別處理IPv4或IPv6(稱為雙棧)。 IHL,Internet頭部長度,該字段為4位,表示頭部(包括選項)32位字的數(shù)量,也就是說,真正的用字節(jié)表示的頭部長度應(yīng)該是IHL的值,再乘以4(32位=4字節(jié)),因為4位能表示的最大2進(jìn)制為1111,對應(yīng)十進(jìn)制15,所以IPv4的首部最多60(15*4)字節(jié)。 DS,服務(wù)類型字段占6bit,顯示控制通知(ECN)占2bit,一共8bit,該8bit用來替換了最初版本的服務(wù)類型(ToS)字段,原因是ToS其實沒怎么被用。 總長度字段,是IP數(shù)據(jù)報的總長度,包括首部和數(shù)據(jù)。 接下來的32位字(4字節(jié)),標(biāo)識(16bit) 標(biāo)志(3bit) 分片偏移(13bit)用于分片和重組邏輯。 TTL,生存期字段用于設(shè)置數(shù)據(jù)報可經(jīng)過路由器數(shù)量的上限。超此上限的IP數(shù)據(jù)報將被丟棄。 協(xié)議字段,8bit,提供多路分解功能,滿足IP協(xié)議可用于攜帶多種(TCP、UDP、ICMP、IGMP等)協(xié)議類型的有效載荷的要求,TCP對應(yīng)值17,UDP對應(yīng)值為6。 頭部校驗和字段,僅計算IPv4頭部,不包括數(shù)據(jù),數(shù)據(jù)(Payload)的校驗由傳輸層協(xié)議去保證,校驗和的含義很簡單明了,在發(fā)送端根據(jù)IP頭部的各位計算出一個數(shù)值,接收端根據(jù)接收到的IP頭部的各位重算一個數(shù)值,如果該值等于校驗和字段,那就哦了,否則,傳輸過程中出錯了,這個IP數(shù)據(jù)報不靠譜,扔了吧。 分片和重組鏈路層對可傳輸?shù)膸幸粋€最大長度的限制,以太網(wǎng)對數(shù)據(jù)幀的長度上限是1500字節(jié),鏈路層可傳輸幀的長度限制叫做最大傳輸單元(MTU)。 如果IP層有一個數(shù)據(jù)報要傳,且數(shù)據(jù)長度比鏈路層的MTU還大,那么IP層就需要對該數(shù)據(jù)報分片(fragmentation),把超限的數(shù)據(jù)報切分為若干片,使得每片都小于MTU限制。 IP層接收到一份要發(fā)送的數(shù)據(jù)報時,通過選路邏輯來決定向哪個接口(網(wǎng)卡)發(fā)送數(shù)據(jù),發(fā)送數(shù)據(jù)之前,需要查詢該接口獲得其MTU,然后將數(shù)據(jù)報長度與MTU進(jìn)行比較,如果需要,則進(jìn)行分片,分片可以發(fā)生在原始發(fā)送端主機(jī),也可以發(fā)生在中間路由器上。 IP數(shù)據(jù)報分片后,到達(dá)目的地后才進(jìn)行重新組裝,恢復(fù)分片前的IP數(shù)據(jù)報信息,重組由目的主機(jī)的IP層完成。因此,分片和重組對傳輸層(TCP、UDP)透明,IP首部中的標(biāo)識、標(biāo)志、分片偏移字段為分片和重組提供了足夠的信息。 IP數(shù)據(jù)報首部中的標(biāo)識(16bit)保存分片的唯一值,這意味著屬于同一IP數(shù)據(jù)報的多個分片擁有相同的標(biāo)識值。 標(biāo)志(3bit)字段中的一位用來表示“是否有更多的片”,除最后一片外,其他組成數(shù)據(jù)報的分片該位設(shè)1,最后一片置0表示沒有更多的片,也就是最后一片;片偏移字段用來標(biāo)識該片在原始IP數(shù)據(jù)報中的位置。 當(dāng)IP數(shù)據(jù)報切分為多個分片(IP數(shù)據(jù)報)后,每個分片的總長度字段(16bit)要更改為該片的長度值。 對鏈路層而言,不管是完整的IP數(shù)據(jù)報,還是IP數(shù)據(jù)報的一個分片,都以IP分組同等視之,分組是IP層把數(shù)據(jù)報傳遞給鏈路層的一個概念,既可能是一個獨(dú)立IP數(shù)據(jù)報也可能是一個IP數(shù)據(jù)報的分片。每個分組(分片)都有自己的IP首部,并在選路時與其他分組(分片)獨(dú)立路由,所以這些分片到達(dá)目的端可能失序,但IP首部有足夠信息重新組裝這些片。 任何一個分片的丟失,都要導(dǎo)致重傳整個數(shù)據(jù)報,這是因為重傳機(jī)制在傳輸層,而分片對傳輸層透明。 上圖是UDP數(shù)據(jù)報在IP層的分片示例,可見UDP首部只存在第一個分組(分片)之中,這很容易理解,因為經(jīng)傳輸層封裝后的數(shù)據(jù)報對于IP層而言是透明的,IP不區(qū)分UDP首部和UDP數(shù)據(jù),它們都是不透明的Payload。 接收端在收到IP分片后,相同標(biāo)識值的分片屬于同一個被切分的數(shù)據(jù)報,然后對分片偏移排序,更多片標(biāo)志位為0的分組是最后一片,排序后的分組,如果分配偏移連續(xù),且最后一個分組也到達(dá),則表示整個數(shù)據(jù)報都到達(dá)了,則恢復(fù)數(shù)據(jù)報,否則繼續(xù)等待。 IP轉(zhuǎn)發(fā)IP轉(zhuǎn)發(fā)的概念很簡單,就是路由器為IP數(shù)據(jù)報挑選一個接口發(fā)送出去。 從發(fā)送端到目的端,之間經(jīng)歷的所有路由器構(gòu)成網(wǎng)絡(luò)路由的完整路徑,這跟從家到公司經(jīng)過的所有路口構(gòu)成的路徑類似。 當(dāng)網(wǎng)絡(luò)接口(網(wǎng)卡)收到數(shù)據(jù)報時,IP模塊檢查數(shù)據(jù)報目的地址是否為自己的IP地址,如果是,數(shù)據(jù)報交付給由協(xié)議字段指定的協(xié)議模塊(TCP、UDP等),如果不是,則判斷IP層是否配置為路由器,如果是,則轉(zhuǎn)發(fā),如果不是,丟棄,因為主機(jī)不轉(zhuǎn)發(fā)那些不是由它生成的數(shù)據(jù)報。 IP層包含一些位于內(nèi)存中的信息,稱為路由表,每次轉(zhuǎn)發(fā)數(shù)據(jù)報時,都要查詢路由表,執(zhí)行最長前綴匹配法,決定挑選哪個路由表項做數(shù)據(jù)轉(zhuǎn)發(fā)。IP轉(zhuǎn)發(fā)逐跳進(jìn)行,每次轉(zhuǎn)發(fā)假設(shè)離目的地更近一步,路由器和主機(jī)不包含到目的地的完整路徑信息。 路由表是路由條目的列表,每個路由條目包括以下幾項關(guān)鍵信息。
選路過程:
通常路由表會有一個默認(rèn)路由項目,用于默認(rèn)路由,每經(jīng)過一個路由器,IP首部中的TTL字段都要自減1。 |
|
來自: 剩礦空錢 > 《IP Network》