一、网络标准与网络协议
1.1 OSI 网络七层架构
国际标准化组织(ISO)提出的网络体系结构模型,也叫做开发系统互连参考模型(OSI/RM),通常叫做OSI参考模型。如下图所示:
- 物理层、数据链路层、网络层:统称为通信子网。是为了联网而附加的通信设备完成数据的传输功能。
- 应用层、表示层、会话层:统称为资源子网。相当于计算机系统,完成数据的处理功能
- 传输层:承上启下通信子网和资源子网
各层从下到上具体内容如下:
层 | 功能描述 | 数据单位 | 典型协议和标准 |
---|---|---|---|
物理层 | 物理的连接网络媒介 | 比特(bit) | EIA-232C、EIA/TIA RS-449、RJ-45、FDDI |
数据链路层 | 控制网络层与物理层之间的通信 | 帧 | SDLC(同步数据链路控制)、HDLC(高级数据链路控制)、PPP(点对点协议)、STP(生成树协议)和帧中继、IEEE802、ATM |
网络层 | 将网络地址翻译层对应的物理地址 | 数据报 | IP、IPX(互联网数据报交换协议)、ICMP(控制报文协议)、IGMP(网络组管理协议)、ARP(地址转换协议)、RARP、OSPF |
传输层 | 负责确保数据可靠传输 | 数据段 | TCP、UDP、SPX(序列分组交换协议) |
会话层 | 建立和维持通信 | RPC(远程过程调用) | |
表示层 | 应用程序和网络之间的翻译官 | JPEG、ASCII、HTML等 | |
应用层 | 负责对软件提供接口以使程序能使用网络服务 | Telnet、FTP、HTTP |
1.2 TCP/IP 模型
TCP/IP 模型由于得到广泛应用而成为实际上的国际标准。模型从低到高一次为网络接口层、网际层、传输层和应用层。两个模型对比如下图所示:
TCP/IP 模型的具体内容如下表所示:
层 | 描述 | 任务 | 协议 |
---|---|---|---|
应用层 | 提供系统与用户的接口 | 1.文件传输2.访问和管理3.电子邮件服务 | FTP、SMTP、POP3、HTTP |
传输层 | 负责主机中两个进程之间的通信 | 1.为端到端连接提供可靠的传输服务2.为端到端连接提供流量控制、差错控制、服务质量等管理服务 | TCP、UDP、ARQ |
网络层 | 将传输层传下来的报文段封装成分组;选择适当的路由,使传输层传下来的分组能够交付到目的主机 | 1.为传输层提供服务2.组包和拆包3.路由选择4.拥塞控制 | ICMP、ARP、RARP、IP、IGMP |
数据链路层 | 将网络层传下来的IP数据包组装成帧 | 1.链路连接的建立、拆除、分离2.帧定界和帧同步3.差错检测 | PPP、HDLC |
物理层 | 透明地传输比特流 | 为数据端设备提供传输数据通路 | RJ-45、FDDI等 |
1.3 网络设备
每个层都有其对应的实现硬件,如下表所示:
网络设备 | 工作层次 | 主要功能 |
---|---|---|
中继器 | 物理层 | 对接收到的信号进行再生和发送,只起到扩展传输距离用 |
集线器 | 物理层 | 多端口中继器 |
网桥 | 数据链路层 | 连接相同MAC层的网络,根据帧物理地址进行网络之间的信息转发。 |
交换机 | 数据链路层 | 多端口网桥 |
路由器 | 网络层 | 连接相同网络层协议的子网,通过逻辑地址进行网络之间的信息转发 |
网关 | 网络层以上 | 在网络层以上实现网络互连,引用于两个高层协议不同的网络连接 |
1.4 常见的协议及标准
- IP 协议:网络层的核心协议,在源地址和目的地址间传送一个数据包,此外还提供对数据大小的重新组装功能,适应不同网络对包大小的要求。
- ICMP(Internet Control Message Protocol):Internet 控制报文协议,用在IP主机、路由器之间传递控制消息(指网络、主机、路由等是否可达的网络本身消息)
- ARP(Address Resolution Protocol):地址解析协议,根据IP地址获取物理地址
- RARP(Reverse Address Resolution Protocol):反向地址转换协议,通过物理地址获取IP地址
- TCP(Transmission Control Protocol):传输控制协议,面向连接、可靠的、基于字节流的传输层通信协议
- UDP(User Datagram Protocol):用户数据报协议,无连接的处理数据报
- FTP(File Transfer Protocol):文件传输协议,用于Internet 上的控制文件的双向传输
- TFTP(Trivial File Transfer Protocol):相对于FTP而言,它提供不复杂、开销不大的文件传输服务
- Telent:它是Internet 远程登录服务的标准协议和主要方式。为用户提供了在本地计算机上完成远程主机工作的能力。
- DNS(Domain Name System,):域名系统。域名和IP地址相互映射的一个分布式数据库
- SMTP(Simple Mail Transfer Protocol):简单邮件传输协议,控制信件的中转方式,帮助每台计算机在发送或中转信件时找到下一个目的地。
- SNMP:简单网络管理协议,该协议能够支持网络管理系统,用以检测连接到网络上的设备是否有任何引起管理上关注的情况。
- DHCP(Dynamic Host Configuration Protocol):动态主机配置协议,建立在UDP之上,动态分配IP 地址
- 以太网规范 IEEE802.3局域网协议:
- IEEE 802.3 标准以太网 10Mb/s 传输介质为细同轴电缆
- IEEE 802.3U 快速以太网 100Mb/s 双绞线
- IEEE 802.3Z 千兆以太网 1000Mb/s 光纤或双绞线
- IEEE 802.3ae 万兆以太网 10Gb/s 光纤
- IEEE 802.11 无线局域网WLAN技术标准
- 广域网协议:
- PPP点对点协议
- ISDN综合业务数字王
- xDSL(包括HDSL、SDSL、ADSL、MVL)
- DDN数字专线
- x.25
- FR帧中继
- ATM 异步传输模式
二、网络存储技术
主流的网络存储技术重要有三种:分别是直接附加存储(DAS)、网络附加存储(NAS)和存储区域网络(SAN)
- DAS(Direct-Attached Storage): 存储设备直接通过SCSI(小型计算机系统接口)、FC(网状通道技术)连接到应用服务器上,此时存储设备是整个服务器结构的一部分
- NAS(Network-Attached Storage) 存储设备通过光纤交换机连接服务器,建立专用数据存储的存储私网。有专用的文件服务器,支持即插即用。
- SAN(Storage Area Network) 通过各种网络技术(TCP/IP、ATM、FDDI)将存储系统和服务器进行连接来建立存储私网。直接通过以太网和块(block)级别存储。
三、网络规划、设计与实施
网络工程主要可以分为网络规划、网络设计和网络实施三个大阶段。我们主要谈前两个阶段。
- 网络规划包括网络的需求分析、可行性分析和对现有网络的分析与描述;
- 网络设计主要包括确定网络总体目标和设计原则;
3.1 网络分层设计模型
在分层设计中,主要有三个关键层,分别是核心层、汇聚层和接入层
- 接入层:这一层指的是直接面向用户连接或者访问网络的部分,目的是允许终端用户连接到网络中。
- 汇聚层:是位于接入层和核心层的部分,这个部分完成网络访问策略控制、数据爆出里、过滤、寻址,以及其他数据处理任务。需要更高的性能,更少的接口和更高的交换速率(存在与否取决于网络规模大小)
- 核心层:主要目的在于通过高速转发通信,提供优化、可靠的骨干传输结构,因此,核心层交换机应拥有更高的可靠性,性能和吞吐量。(设计时考虑网络规模大小 、传输信息的种类和可投入的资金因素)
3.2 网络系统的设计阶段
设计工作主要包括:
- 网络拓扑结构设计
- 主干网络设计
- 汇聚层和接入层设计
- 广域网连接与远程访问设计
- 无线网络设计
- 网络安全设计
- 设备选型
3.2.1 广域网连接与远程访问设计
- 如果网络用户没有WWW、E-mail等具有Internet 功能的服务器,用户可以采用ISDN或者ADSL等技术连接外网
- 若用户有Internet功能的服务器,用户可采用DDN 专线连接、ATM交换以及永久虚电路连接外网
3.2.2 无线网络设计
无线网络是为了解决优先网络无法克服的困难,如很难布线或者经常需要变动布线结构的地方。
3.3 综合布线系统(网络实施)
如上图所示,主要有这样几个子系统:
- 建筑群子系统:实现建筑物之间的相互连接,介质通常是光缆
- 垂直干线子系统:连接管理间子系统到设备间子系统,使用光缆或者UTP
- 水平配线子系统:实现信息插座和管理子系统的连接
- 设备间子系统:主要由设备中的电缆、连接器和相关支撑设备组成,与公共系统设备相连
- 管理子系统:为连接其他子系统提供连接手段,由配线架、HUB和机柜、电源等组成
- 工作区子系统:由终端设备连接到信息插座的连线组成。包括连接器和适配器
四、数据仓库技术
为什么每个信息系统中已经存在数据库,为啥还要提出数据仓库呢?这就要说说数据仓库的由来了,随着数据库业务数据量指数级的增长,管理层需要对数据库的数据进行整体分析,而这个时候这种数据很难从原有数据库中分析提取出来,所以需要设计一个专门面向分析用的数据库,而这就是数据仓库(Data Warehouse)。
4.1 数据仓库概念
数据仓库(Data Warehouse)是个面向主题、集成的、非易失性的、且随时间变化的数据集合,主要用于支持管理决策。数据库用于事务处理,数据仓库是数据资源池,主要用于挖掘数据价值做分析决策。
数据仓库实际上是数据库概念的升级,与数据库主要有以下区别:
- 面向主题:业务型数据库是为了支撑各种业务建立的,而分析型数据库则是为了对各种繁杂业务中抽象出来的分析主题(比如用户、成本、商品)进行分析而建立的
- 集成性:指数据仓库会将不同源数据库中的数据汇总到一起
- 相对稳定(非易失):业务型数据库的数据通常是实时更新的。而数据仓库中的数据主要是提供企业决策分析之用,所涉及的数据操作主要是数据查询,通常只需要定期加载、刷新等操作
- 反映历史变化:业务型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含企业从过去某一时刻到当前各个阶段的信息,相对来说跨度比较长。
4.2 数据仓库结构
如上图所示,数据仓库通常包含4个层次,分别是数据源、数据存储、OLAP引擎和前端工具
4.2.1 数据源
数据源包括企业内部和外部各种数据库,这些源数据库既为业务系统提供数据支撑,同时也作为数据仓库的数据源
4.2.2 数据存储
数据存储中也包括数据的管理,ETL分别代表提取(extraction)、转换(transformation)和加载(load)。针对现有各业务系统的数据通过ETL按主题进行组织,也就是一个个主题的数据集市。数据集市分为两种,一种是独立数据集市(independent data mart),这类数据集市有自己的源数据库和ETL架构;另一种是非独立数据集市(dependent data mart),这种数据集市没有自己的源系统,它的数据来自于数据仓库。
4.2.3 OLAP服务引擎
OLAP(On-Line Analytical Processiong)联机分析处理,指对分析需要的数据进行有效集成,按照多维模型组织,以便进行多角度、多层次的分析,并发现其中的趋势。
4.2.4 前端工具
主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具等应用开发工具。其中的数据分析工具主要针对于OLAP服务器,报表工具和数据挖掘工具主要针对数据仓库。
五、数据挖掘
数据挖掘(Knowlegdg Discovery in Database)指利用统计学、数学和人工智能技术等在大量数据中发现并提取有效信息和相关知识的过程。核心技术主要包括分类、聚类、预测和关联分析等任务。通过这些方式,我们可以从数据仓库中得到想要的数据,比如商业报告等。
六、商业智能
商业智能(Business Intelligence)基本包括三个部分:数据仓库、联机分析处理(OLAP)和数据挖掘。
商业智能系统应具有的主要功能:
- 数据仓库
- 数据ETL:要求能自动地根据描述或者规则进行数据查找和理解
- 数据统计输出(报表):报表能快速地完成数据统计的设计和展示
- 分析功能:可以通过业务规则形成分析内容,并且展示样式丰富,具有一定的交互要求
七、中间件技术
7.1 中间件概念
中间件是介于应用系统和系统软件之间的一类软件,比如 JVM。同时中间件也是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源。中间件位于客户机服务器的操作系统之上,管理计算资源和网络通信。
7.2 中间件类型
按照中间件的层次上来划分,主要有底层型、通用型和集成型三个层次:
7.2.1 底层型中间件
主流的有 JVM(Java 虚拟机)、CLR(微软公共语言运行库)、JDBC(数据库连接)和 OOBC(开放数据库互连)
7.2.2 通用型中间件
主流的有CORBA(公共对象请求代理体系结构,底层传输层集成)、J2EE(不同硬件和操作系统集成)、MOM(面向消息的中间件)和COM等等,代表产品主要有WebLogic和IBM MQSeries等。
7.2.3 集成型中间件
主流的有 WorkFlow 和 EAI(企业应用集成)等,代表产品主要有 BEA WebLogic 和 IBM WebSphere等等。
因此对于不同层次的集成,可以对应采用不同的技术和产品:
- 为了完成系统底层传输层的集成,可以采用CORBA技术
- 为了完成不同系统的消息传递,可以采用消息中间件产品
- 为了完成不同硬件和操作系统的集成,可以采用J2EE中间件产品
参考资料
第一篇:数据仓库概述 - 穆晨 - 博客园 (cnblogs.com)
数据分析、数据挖掘、商业智能之间的关系 - 知乎 (zhihu.com)