永发信息网

SSE 4.2的SEE4指令集家族介绍

答案:1  悬赏:30  手机版
解决时间 2021-03-03 14:27
  • 提问者网友:不爱我么
  • 2021-03-03 07:45
SSE 4.2的SEE4指令集家族介绍
最佳答案
  • 五星知识达人网友:七十二街
  • 2021-03-03 09:22
SSE4的英文全称是:Streaming SIMD Extensions 4,是英特尔自从SSE2之后对ISA扩展指令集最大的一次的升级扩展。新指令集增强了从多媒体应用到高性能计算应用领域的性能,同时还利用一些专用电路实现对于特定应用加速。
从指令数目上看,SSE4指令增加了的指令改进了整数和浮点操作,支持DWORD和QWORD操作,新的单精度FP操作、快速寄存器操作、面向性能优化的内存操作等等,包括了图形、图像、数据装载各方面的革新,因此称其为SSE2以来最大的指令集变动也是不为过的。利用支持SSE4指令集的编译器编译之后,包括图形/图像处理、视频处理、2D/3D创作、多媒体、游戏、内存敏感负载、高性能计算等应用都会受益。
SSE4指令集分为两个版本:4.1和4.2,SSE4.1版本随着45nm Penryn发布,而SSE4.2版本会随着下一代架构Nehalem发布,4.1包括47条指令,4.2包括7条指令。 据Intel指出,在应用SSE4指令集后,Penryn增加了2个不同的32Bit向量整数乘法运算支持,引入了8位无符号 (Unsigned)最小值及最大值运算,以及16Bit 及32Bit 有符号 (Signed) 及无符号运算,并有效地改善编译器效率及提高向量化整数及单精度代码的运算能力。同时,SSE4 改良插入、提取、寻找、离散、跨步负载及存储等动作,令向量运算进一步专门化。
不仅如此,Intel SSE4指令集还进一步增强讯编码效果,例如可同时处理8个4-byte宽度的SAD(Sums of Absolute Differences)运算,常用于新一代高清影像编码如VC.1及H.264等规格中,令视频编码速度进一步提升。因此在播放高清视频的时候,即使在软解的情况下也同样游刃有余。
有效地改善编译器效率及提高向量化整数及单精度代码的运算能力
SSE4 构建于英特尔64 指令集架构 (Intel 64 Instruction Set Architecture) (ISA),该架构是开发 32 位和 64 位应用最为广泛应用的电脑架构。Intel SSE4 包含 54 条指令,主要分为两类:矢量化编译器和媒体加速器,以及高效加速字符串和文本处理。矢量化编译器和媒体加速器可提供高性能的编译器函数库,如封包(同时使用多个操作数)整数运算和浮点运算,可生成性能优化型代码。此外,它还包括高度优化的媒体相关运算,如绝对差值求和、浮点点积和内存负载等。矢量化编译器和媒体加速器指令可改进音频、视频和图像编辑应用、视频编码器、3D 应用和游戏的性能。高效加速字符串和文本处理包含多个压缩字符串比较指令,允许同时运行多项比较和搜索操作。由此受益的应用包括数据库和数据采掘应用,以及那些利用病毒扫描和编译器等分析、搜索和模式匹配算法的应用。
SSE4加入了6条浮点型点积运算指令
SSE4加入了6条浮点型点积运算指令,支持单精度、双精度浮点运算及浮点产生操作,且IEEE 754指令 (Nearest, -Inf, +Inf, and Truncate) 可立即转换其路径模式,大大减少延误,这些改变会对游戏及 3D 内容制作应用有重要意义。此外,SSE4加入串流式负载指令,可提高以图形帧缓冲区的读取数据频宽,理论上可获取完整的快取缓存行,即每次读取64Bit而非8Bit,并可保持在临时缓冲区内,让指令最多可带来8倍的读取频宽效能提升,对于视讯处理、成像以及图形处理器与中央处理器之间的共享数据应用,有着明显的效能提升。 Nehalem微架构最高支持4颗处理器的Quick Path多路服务器环境,单一芯片最高可拥有2、4及8颗核心,支持经改良的Hyper-Theading技术,令单颗处理器最高可支持16 Threads,而且Nehalem架构中的Havendale亦会内建绘图核心。新增SSE4.2指令集及ATA指令集令系统性能全面提升,令人期待。此外,新一代Nehalem会放弃FSB设计,采用全新的Quick Path Interconnect架构,已得知服务器版本的Nehalem处理器最高可拥有4组Quick Path Interconnect,并至少可组成四颗处理器的数据可直接互换的4Ways服务器架构。
Nehalem搭配了高速三级缓存
英特尔每次在缓存和指令集上的小小改进都会对处理器的性能产生质的变化。最新的45nm Nehalem产品中会出现第二代SSE4技术,这比45nm处理器更为强大,可以看成是一种流SIMD扩展:SSE 4.2。据了解,Nehalem包含一个全新的ATA中心和文字与字符串处理引擎,这意味着该处理器对于文本的处理性能有很大提升。此外,基于XML文件作为病毒定义的反病毒软件也可能因此而受益。
对于Nehalem的SSE4.2,Intel的Gelsinger介绍说,这7条指令集的用途各有不同,比如有面向CRC-32和POP Counts等特定应用的,有特别针对XML等的流式指令。Gelsinger称,新指令集可以把256条指令合并在一起执行,从而让XML类工作的性能提高3倍。
Nehalem性能相比上一代提升30%
预计在2009年的第二季末,Intel会推出内建绘图核心的处理器,核心代号为Havendale,这是一颗针对主流级市场的双核心处理器,采用45nm制程,支持SMT(Simultaneous Multi-Threading),L2 Cache容量最高为4M。虽然同样内建内存控制器及PCI-Express绘图接口,但它却不是原生设计,Havandale把绘图核心、PCI-Express绘图接口及内存控制器制作成一颗芯片,与处理器核心采用MCP(Multi-Chip Package)封装在一起,两者采用Quick Path Interconnect连接。相信大家更关心的是Intel能否真的把CPU和GPU真正的同一! Intel最新45nm处理器还加入了0.5倍频调节,增加了SSE4指令集,Wolfdale增加了2个不同的32Bit向量整数乘法运算支持,引入了8 位无符号 (Unsigned)最小值及最大值运算,以及16Bit 及32Bit 有符号 (Signed) 及无符号运算,并有效地改善编译器效率及提高向量化整数及单精度代码的运算能力。同时,SSE4 改良插入、提取、寻找、离散、跨步负载及存储等动作,令向量运算进一步专门化。
此外,SSE4加入串流式负载指令,可提高以图形帧缓冲区的读取数据频宽,理论上可获取完整的快取缓存行,即每次读取64Bit而非8Bit,并可保持在临时缓冲区内,让指令最多可带来8倍的读取频宽效能提升,对于视讯处理、成像以及图形处理器与中央处理器之间的共享数据应用,有着明显的效能提升。
在SSE4指令集中,共引入了47条新的多媒体运算指令。其中一条“streaming load instruction”流加载指令引起了广泛的注意。该指令为16bit同步加载指令,但加载结果会存储在高优先级的临时流缓冲中,绕过普通的CPU Cache。这一指令有利于GPU从CPU中高速共享数据,加速图像处理。
从Intel 45nm产品的性能以及规格来看都要比上一代的65nm产品有了长足的进步,同时在超频潜力上又有了一个质的飞跃。这让更多的I饭们看到冲击极限的希望。而且由于45nm制程在成本上会更低,因此在中低端市场的竞争中Intel 45nm制程的新处理器更具有冲击力。

我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息
大家都在看
推荐资讯