本篇博客让我们一起来了解一下网络的基本原理

1.网络发展背景

关于网络发展的历史背景这种东西就不多bb了,网上很容易就能找到参考资料,我的专业性欠缺,文章参考意义也不大。这里只做简单说明。

网络发展经过了如下几个模式:

  • 独立模式:计算机之间相互独立,靠人移动数据
  • 互联模式:多台计算机连接到一起,实现数据共享
  • 局域网LAN:计算机数量增多,通过交换机/路由器连接到一起
  • 广域网WAN:将相隔距离非常远的计算机连在一起

交换机是啥?简单来说就是一个有很多网口的设备,将设备插上去后(一般用的都是RJ45网线)就能相互交流信息。我们家用的WIFI路由器其实已经集成了交换机的功能!

1983年,TCP/IP协议成为ARPANET上的标准协议,人们把1983年称为互联网的诞生时间。

1.1 计算机设备之间是怎么交流的?

计算机内部有非常多的设备,在设备和设备之间一定要用“线”进行连接。这样这些设备才能相互通信。比如主板上的总线,链接硬盘的sata线等等。

而这个计算机的结构本质上也能被看作一个小型网络。

此时我们将计算机A和B用数据线连接起来,就能在物理层面上,让A和B相互通信(此时暂且不考虑通过何种方式通信,只要用数据线连起来了,那就一定能通信)

  • 在主机内,线短
  • 跨主机,线长

当数据线长了之后,线路和线路之间就容易产生信号的干扰,导致数据的错误/丢失。此时我们就需要一个更可靠、高效的方式来实现远距离计算机之间的通信,这就是网络的意义

1.2 集群

进一步扩大,实际上,还可以用多台主机相连,实现单一的功能。这时候,这一堆主机被称为集群

  • 存储集群:硬盘
  • 缓存集群:内存
  • 计算集群:Cpu/Gpu

不同的集群干不同的事,再用数据线连起来,就成了一台由多个主机共同构成的“电脑”

image-20230130191810628

在大型的数据中心里面,就是用这种方式来处理海量的数据的。

1.3 因特网

当前我们主要在计算机上使用的是Internet,官方名称为因特网,日常说的互联网就是因特网。

但还有另外一个互连网,其概念是互相连接的网络,英文名是internet(小写的i),互联网 ≠ 互连网

1.4 ISP/IXP

ISP的中文名是互联网服务提供者,在我们国内说的就是三大运营商

IXP是狐狸那我交换点,允许两个网络直接相连并快速提供分组的转发。

2.协议

协议是一种约定,约定好两台设备要用什么方式来交流。

比如我们都是中国人,可以用普通话这个协议来交流;而广东地区的人,可以用粤语来交流。

计算机之间想交流,肯定也需要确定好一个行业通用的协议

否则不同计算机的架构/操作系统/硬件设备不一样,若协议不统一,也就无法正常交流。这就好比一个说英语的人听不懂普通话一样。

2.1 分层

网络的协议是分层的

2.1.1 为什么要分层

软件分层,就好比将主代码和功能代码给分开

  • 此时只要功能代码提供的接口不变,主代码的调用方式就不变
  • 主代码无须关心功能代码是如何处理的,只关心其处理的结果(返回值)
  • 工程师修改代码的时候,只需要定位到具体模块进行修改,不会出现牵一发动全身的情况

这样,就实现了主模块和功能模块的解耦

由于网络涉及到了软件到硬件各种层面的设备操作,所以其必须采用分层的协议。不同设备采用不同的协议,才能最大层面的保证网络系统整体不出bug

网络协议有一个特点:同层设备都可以认为自己在直接和对方通信

2.1.2 电话机例子

以下图为例,当俩个人用座机打电话的时候,他们会认为自己在直接和对方交流,而不会认为自己是在和电话机交流

image-20230130201915187

此时,就可以把这个系统分3层:分别是两人之间的语言协议,电话机和电话机之间读取数据的协议,以及最底层用于传输信号的通信协议

  • 用户不会去关心电话机用的是什么协议,而是关心自己应该用什么语言和对方交流
  • 电话机不会去关心用户是用什么语言交流的,其只负责把收到的声音转换成电信号
  • 通信协议不管电话机是怎么封装的,其只负责传输数据

这里就能看出来,不仅同层的设备可以认为自己是直接和对方交流,而且它还不需要管其他层用的是什么协议!

  • 电话机不会因为你说英语而用不了

这就是分层实现解耦的效果,也算是每一层都实现了自己的封装

2.2 OSI七层模型

  • OSI(Open System Interconnection,开放系统互连)七层网络模型称为开放式系统互联参考模型, 是一个逻辑上的定义和规范;
  • 它把网络从逻辑上分为了7层。每一层都有相关、相对应的物理设备,比如路由器,交换机;
  • OSI 七层模型是一种框架性的设计方法,其最主要的功能使就是帮助不同类型的主机实现数据传输;
  • 它的最大优点是将服务、接口和协议这三个概念明确地区分开来,概念清楚,理论也比较完整。 通过七 个层次化的结构模型使不同的系统不同的网络之间实现可靠的通讯

image-20230130203221920

可以用下面的这个表格来简单了解一下每一层的功能

分层名称功能概览
应用针对特定应用的协议STMP邮件/远程登录/文件传输
表示数据固有格式和网络标准格式的转换接收不同表现形式的信息
会话通信管理,负责建立/断开通信连接,维持不同应用程序的通信何时建立/何时断开/建立多久
传输两个节点之间的数据传输维持传输可靠性
网络地址管理/路由选择(逻辑寻址确定最佳路径
数据链路互联设备之间传送和识别数据将数据组合成字节
物理以01二进制进行数据传输网线

但是OSI七层模型相对比较复杂,我们主要关注的还是TCP/IP模型

2.3 TCP/IP

TCP/IP是一组协议的代名词,它其中包括很多协议,组成了一个整体。为了方便使用,TCP/IP协议将OSI的上方3层统一称为应用层,由用户字节决定如何进行数据的序列化/反序列化,什么时候建立连接,什么时候断开连接

TCP/IP模型可以认为是4/5层,每一层也有自己不同的功能。每一层都会调用另外一层,来实现自己的需求

  • 物理层: 负责光/电信号的传递方式。 比如现在以太网通用的网线(双绞 线)、早期以太网采用的的同轴电缆 (现在主要用于有线电视)、光纤, 现在的wifi无线网使用电磁波等都属于物理层的概念。物理层的能力决 定了最大传输速率、传输距离、抗干扰性等。集线器(Hub)工作在物理层
  • 数据链路层: 负责设备之间的数据帧的传送和识别。 例如网卡设备的驱动、帧同步(就是说从网线上检测 到什么信号算作新帧的开始)、冲突检测(如果检测到冲突就自动重发)、数据差错校验等工作。 有以太 网、令牌环网, 无线LAN等标准。交换机(Switch)工作在数据链路层
  • 网络层: 负责地址管理和路由选择。 例如在IP协议中, 通过IP地址来标识一台主机, 并通过路由表的方式规 划出两台主机之间的数据传输的线路(路由)。路由器(Router)工作在网路层
  • 传输层: 负责两台主机之间的数据传输。 如传输控制协议 (TCP), 能够确保数据可靠的从源主机发送到目标 主机
  • 应用层: 负责应用程序间沟通,如简单电子邮件传输(SMTP)、文件传输协议(FTP)、网络远程访问 协议(Telnet)等。 我们的网络编程主要就是针对应用层。

为啥这里有5层,却有时候又说是4层呢?😏

因为物理层关注的较少,所以一般都只注重于剩下的4层

3.网络和操作系统之间的关系

用户的网络请求要想成功发送给对方,那就一定要经过网卡这个硬件;而要经过网卡,那就肯定要经过操作系统——只有操作系统能直接访问硬件!

所以,数据在主机内流动的时候,就一定会从用户走到内核,再最终走到物理层进行传输!

image-20230131175320289

因为计算机的体系结构决定了数据流动的时候,一定要经过操作系统,所以肯定会是自顶向下/自底向上进行流动的!

  • 这就引出了二者的关系

网络协议栈是属于操作系统的:在操作系统中,有一个模块就是专门来处理tcp/ip协议的。


前面提到,每一层都可以认为自己是在和对方同层的用户直接通信。这样做是有一定代价的,且听我细细道来。

3.1 快递例子

当我们网购商品的时候,我们作为用户,是直接和商家联系的。下了订单后,商家要去做一系列的操作,最终我们从快递小哥处拿到了商品

客户商家
在商家处下订单接收到用户订单
从快递员处收到货物将货物交给快递员
货物运输到集散点货物运输到集散点

但,我们收到的快递并不是只有我们要的商品,往往这里面都会多出一些东西

如图,我们的商品被一个盒子包裹着,外头还多了一个快递单

客户商家
在商家处下订单接收到用户订单给出收件地址
从快递员处收到货物将货物交给快递员添加外箱并填写邮寄单
货物运输到集散点货物运输到集散点开始运输

在这个例子中,每一层其实都给出了自己的独有协议。我们可以把最下面的运输当作物理层

快递小哥在包装快递的时候,就会给快递增加一个外箱,并填写好邮寄单。当另外一边的快递小哥收到这个货物的时候,就可以更具邮寄单上的信息,将快递送到用户手上。

3.2 报头/解包

此过程中,为了维护快递的出发地/终点地信息,快递员给货物添加上了客户不需要的东西。

  • 在网络协议中,每一层协议,都会给我们要传输的数据添加上独有的协议信息,再交付给下一层;这些信息是用来维护数据的(就好比快递单号上的地址)
    • 多出来的协议数据被称为:报头
  • 收到信息后,同层协议会取出自己的那份协议信息进行分析,再交付给上一层
    • 拆开数据的过程被称为:解包

image-20230131183936370

不知道快递的例子能否帮助你理解这个过程

QQ图片20220413084241

3.3 报头的作用

数据会有不同的应用,也对应了不同的协议。在封包的时候,添加的报头信息里面就应包含目标的协议信息

  • 比如我的信息是SMTP邮箱信息,那么在目标主机接收到进行解包了以后,也需要将这个信息交给支持SMTP的邮箱软件进行处理
  • 报头属性里面就需要包含支持分用👆的属性(还有一些公共属性)
  • 报头属性里面还需要包含区分有效载荷和报头的属性,也就是将要发送的数据,和这一层的报头给拆开,不能到时候分不出来,无法正常解包了

这个过程就是一个分用的过程,我们传送的信息,被称为有效载荷

image-20230131211927995

快递点也是一样,如果快递点收到的都是商品而没有快递单,快递小哥也就无法知道快递应该送给谁了

4.局域网

以太网的命名来自物理学中的以太,这部分的故事可以百度😶‍🌫️大学物理课上也讲过。

  • 如果两台主机,处于同一局域网中,他们之间能通信吗?
  • 和同学开手机热点联机MC的经历告诉我😏,是可以的

4.1 MAC地址

局域网就好比一个餐厅,里面有很多人在聊天。当你在餐厅里面和张三聊天的时候,旁边的人也能听到你们俩交流的内容。局域网内也是如此。

要想在局域网内准确地找到一个设备,那就需要一个唯一标识码。就好比想在教室里面找到一个人,需要知道名字一样(排除同名问题)

每台主机唯一的标识码,就是该主机对应的MAC地址

  • MAC地址用来识别数据链路层中相连的节点
  • 长度为48位, 及6个字节。 一般用16进制数字加上冒号的形式来表示(例如: 08:01:27:04:fb:19)
  • MAC地址在网卡出厂时就确定了,不能修改! 且mac地址通常是唯一的(虚拟机中的mac地址不是真实的mac地址,可能会冲突;也有些网卡支持用户配置mac地址)

局域网内没有发送限制,任何一台主机随时都可发送消息。此时还需要引入碰撞检测机制,在没有人发送信号的时候,本设备再发送信号。避免多台主机通信时,出现信号撞到一起(碰撞域)而导致的信息丢失。

以系统编程的角度来看,此时的局域网可以认为是一个临界资源。保证数据不被碰撞,就是保护临界资源的一致性!😛

4.2 通信原理

和前面提到的报头/解包一样,局域网内的数据,也是自顶向下、自底向上流动的。

每一层都有自己的协议,也需要加上自己的报头

5.广域网

在广域网内通信就没有那么简单了。这就好比唐僧去西天取经,不是直接走到西天的,而是需要经过多个驿站(中途地点)

在广域网内通信,我们则是通过ip地址来做驿站,来查找目标主机的

  • 在局域网内用的是mac来标识目标的唯一性
  • 广域网内采用ip来标识目标的唯一性

5.1 IP地址

IP协议有两个版本,IPv4和IPv6(本文只关注v4)

IP地址是在IP协议中,用来标识网络中不同主机的地址;

对于IPv4来说,IP地址是一个4字节,32位的整数。通常使用 “点分十进制” 的字符串表示IP地址, 例如 192.168.0.1;用点分割的每一个数字表示一个字节, 范围是 0 - 255;

因ipv4的规定的局限性,ipv4的ip现在已经逐渐枯竭,很多地方的运营商已经不提供家用宽带的公网IP地址。

5.2 通信过程

在广域网通信的时候,每次都需要提供源IP和目标IP,这就是从哪儿来/到哪儿去;同时,还需要提供源MAC和目标MAC进行标识。

在通信过程中,会有路由器来告诉你应该去哪儿。在这期间,我们的数据会在不同的局域网内进行切换。

image-20230131211716493

在切换过程中,路由器会更新你的源IP/MAC(目标IP不变)并提供目标的MAC地址

唐僧去西天取经,他的目的地是不会变的,但是上一站/下一站会不断变化

以下图为例,当我们的数据走到IP这一层时,就会加上IP协议的报头。并在路由器内进行解包,再换上新的IP报头。

此时IP一层就可以和其他层区分开,因为在IP层之上,发送/接收主机收到的数据是完全一样的!

IP层是一个软件层,任何底层的差异,都可以通过加一层软件层来解决。这是一种软件虚拟化技术,linux的文件系统也使用了这种技术

也就是说,通过IP层,可以屏蔽底层网络的差距。在通过ip通信的时候,不需要关注底层的路由等硬件信息以及数据传输的实现。

5.3 端口

一台主机里面有非常多的进程,每一个进程都能访问网络发送信息。

光用IP地址,我们实际上只能找到对应的主机,却无法确定是这台主机里面的xx应用发出的信息。

此时,就需要利用端口号来确定我们要访问的进程是什么了。

  • IP:确保主机唯一性
  • 端口port:确保该主机上的进程唯一性

如果你有用过docker,那肯定就知道端口号这一存在。大部分docker都需要映射一个端口以对外提供服务。

网络间的通信,本质上是不同主机上的进程通信

  • 端口号是一个2字节的整数,限定了端口范围(1-65,536)
  • 端口号用于标识一个进程,告诉系统,当前的数据应交给哪一个进程去运行
  • 同一个进程可以使用多个端口号
  • 但是一个端口号只能对应一个进程

网络通信中,有源IP和目标IP,也有源端口和目标端口。我们把这一对IP+端口被称为socket对

5.3.1 端口/PID的关系

在一台主机里面,PID也可以用于标识唯一的进程。但是,端口号和PID是属于两个完全不同的概念。

假设餐厅里有一个扫把,餐厅雇了个保洁员A,让他来打扫餐厅的卫生。此时就可以把扫把认为是端口,保洁员A是一个进程。

有一天,保洁员A生病了,请假一周。于是老板又请了一个保洁员B,让他来打扫一周的卫生。此时,保洁员B也能使用餐厅里面已有的扫把,来进行打扫工作

  • 保洁员A/保洁员B干的工作是完全一致的
  • 他们使用的是同一个扫把

我们知道,在linux中,一个同一个可执行程序,每一次执行的时候,它的进程PID都是不同的;但同一个可执行程序,干的活肯定是一样的。

保洁员A和B就可以看作是同一个可执行程序,他们用的也是同一个端口(扫把),但保洁员A和B的进程PID是不一样的!

所以,在网络通信的时候,采用了端口这个扫把来标识需要进行网络通信的进程,而不是继续采用PID来标识👻

操作系统只需要维护一个端口号和进程的哈希表,就能快速地通过端口号找到对应的进程

5.4 TCP/UDP

TCP(Transmission Control Protocol 传输控制协议)

  • 传输层协议
  • 有链接(必须要和目标建立连接,才能开始数据传输)
  • 可靠传输(检查是否有丢包,需要保证数据完全被传输到目标主机)
  • 面向字节流

UDP(User Datagram Protocol 用户数据报协议)

  • 传输层协议
  • 无连接(无须建立连接,比如所有人都能给你的电子邮箱发送邮件)
  • 不可靠传输(不检查丢包)
  • 面向数据报

6.网络字节序

在之前学习int类型的存储的时候,提到过大端/小端的概念

6.1 说明

在网络中,数据流同样有大端小端之分。TCP/IP协议规定,网络数据流应该采用大端字节序(低地址高字节)后发出的数据是高地址

image-20211203231627550

如上图的1为例,当网络中发送这个数字1的时候,会先发送00 00 00,最后发送的是01。这样能够方便数据的拼接

  • 发送主机将缓冲区中的数据按内存地址从低到高的顺序发出
  • 接受主机把数据依次保存到缓存区中,也是按地址从低到高的顺序保存

这个规定更重要的意思是,如果不对网络字节数据的大小端做出限制,那么网络里面就会出现既有大端又有小端的情况,得写俩套代码来处理这个问题。

限制为大端之后,小端机器就需要在发送信息之前将数据转为大端,在接收到数据之后,将数据转换为小端。此时的处理就是操作系统的工作了,和TCP/IP协议本身没有关系了😛

6.2 转换接口

为了提高可以移植性,有以下的这个接口将网络字节序和主机字节序进行转换

1
2
3
4
5
6
#include <arpa/inet.h>

uint32_t htonl(uint32_t hostlong);
uint16_t htons(uint16_t hostshort);
uint32_t ntohl(uint32_t hostlong);
uint16_t ntohs(uint16_t hostshort);

在命名中,n代表network,h代表host,l代表long,s代表short。

如果主机就是大端,这些函数什么都不会做。如果主机是小端,则会将主机字节序转换成网络字节序(或反之)

更多…

关于网络原理的前置知识暂时就记录这么多,后续有新增会来更新本文