超算云解决方案

来源: 广东坤通科技有限公司  日期:2013-03-26  点击:4959  属于:解决方案
  1. 方案概述
超算云是坤通科技推出的一站式超算平台。它基于中国超算环境与云计算技术,直通各大超算中心与数据中心,提供专属优化网络、软件应用部署与行业SaaS解决方案,满足多、快、好、省的计算需求,并为各行业提供高效便捷的超算服务。


超算云平台的构建,将为科研和仿真分析发展奠定坚实的基础。坤通科技基于分布式集群技术和超算作业调度、监控、应用特征搭建一站式的超算平台,做为坤通科技的优势业务,坤通科技以创新、融合、高端的建设能力,助力客户打造更具市场力的、更全面的超算平台。
  1. 总体方案架构

坤通ONE PBS是专为坤通超算平台定制的作业调度系统,安装在调度服务器上,用户可以通过浏览器进行作业的调度和管理,调度服务器会根据集群中的资源使用情况来合理的调度用户的作业,从而达到高效、快捷的超算服务。
作业调度监控系统为分布式架构,分为前台和后台系统,前台系统用来查看作业情况和告警信息,后台系统包含服务器端程序和采集端程序。
前台系统支持windows和linux操作系统,后台只支持linux系统,前台通常部署在控制台,后台服务器端部署在群集管理节点,采集端部署在群集节点上。
  1. 平台特点
    1.  简单易用的SaaS化交互
简单、易用的SaaS化交互系统,用户在同一界面完成数据管理、作业管理、前后处理等全部工作,消除平台与用户间的鸿沟,降低平台学习成本,专注科研生产,提升效率与产能。 同时,管理员可便捷地进行软、硬资源管理,快速发布应用,基于数据运营总结,引进先进的运营管理能力。
    1. 基于HPC优化的一站式交付平台
     从用户的应用特征出发,对CAE,MCS,EDA,基因分析等行业提供一站式的交付。可便捷地进行软、硬资源管理,快速发布应用,基于数据运营总结,引进先进的运营管理能力。坤通超算云桌面具有一个账号直通多家超算中心功能,因此依托此平台即可调用各大超算中心软硬件资源,从而使用更加灵活方便。
    1.  本地资源和云资源无差别访问
     无论是本地资源还是云端资源,平台统一抽象为无差别资源池,统一调度算力资源,并在客户无感知的情况下对本地及云端资源进行统筹建立资源池,实现资源最大化。
    1.  应用的分析与加速
智能分析应用特征,基于机器学习的智能调度系统,为用户匹配最佳的算力,并对应用进行加速。
  1. 平台主要功能描述
4.1 极简的高性能计算交互使用方式
通过图形化的交互方式,再同一界面便捷快速地完成前处理、计算求解、后处理、数据管理等全部工作内容,无需使用命令行,无需掌握复杂的IT技能,全 心专注业务领域;

4.2 便捷的SaaS化集成与发布
便捷的应用集成管理、应用发布管理、应用权限管理以及用户作业管理等功能,帮助管理员轻松实现应用管理, 快速为用户构建使用环境,使用户便捷地使用计算环境,同时减少运维支持工作量。

4.3 前后处理一体化
集批处理应用能力、2D/3D远程可视化技术能力以及存储与数据管理能力,形成了一站式的前后处理与计算求解一体化体验。

4.4 自动化调度登陆节点池
命令行终端用户无需记录登陆节点IP、用户名和密码等信息,ParaPortal调度引擎根据调度策略进行自动化调度 、实现负载均衡,提升终端交互效率。

4.5 应用性能分析与优化
基于应用运行特征方法论,建立应用运行特征库和应用性能分析能力,快速发现应用性能瓶颈,优化提升应用运行效率,降低 成本,同事提升产出效率。

4.6 全面计量计费
多维度数据采集计量,灵活的定价策略,提供功能全面的计量和计费基于全面的计量数据,建立 资源与应用使用率统计分析、科学运营决策能力,建立资源使用审计能力,建立记账收费能力。

4.7 人工智能云平台
采用容器化技术快速构建人工智能计算环境,提升平台管理效率集成TensorFlow和caffe等主流框架, 提供完备的支持环境,减少学习成本,加速开发未来。

4.8 运维管理平台
面向业务运维,构建全局业务拓扑,主动发现,构建自动化运维能力,提升业务持续运行连续性,帮助客户构建大数据汇聚、存储 、分析挖掘以及展现能力,实现基于数据的精细化运营。
  • 直观的业务视角 监控与报警
  • 构建从底层硬件到上层业务应用的全面数据指标关联监控
  • 全局业务拓扑视图,业务故障根源及影响清晰直观,实时报警
  • 故障指示库积累,自愈常见故障,自愈常见故障,持续提升自动化运维能力

4.9 运营分析挖掘与大屏展示
      • 业务热点、资源热点直观展现,基于数据科学运营决策
      • 多维度、多来源数据灵活接入
      • 亿级数据秒级处理
      • 按照行业需求,灵活定制
      • 专业的视觉设计团队,展现时尚、前沿
  1.  平台与产品
5.1 基础架构
  • 远程图形可视化: 远程可视化技术, 省去冗长数据下载过程
无需再花费数小时,将数十GB的计算结果数据下载至本地,才能进行图形处理,通过远程可视化技术,将数据在超算上处理,图形在本地显示, 大幅提升了工作效率。
  • 网络优化:多接入点选择、坤通快传、坤通专线
1、多接入点选择是指优化用户到超算间的网络链路,减少跳转节点,保障网络性能。根据用户所在地点,提供多条链路,供用户选择到超算的最佳传输路。
2、坤通快传是坤通科技自主研发的海量数据传输解决方案,采用覆盖全国各大运营商的接入服务器网络,能最大程度利用用户带宽,结合私有传输协议实现断点续传和云端秒传,最大程度减少无效数据的传输, 坤通快传功能支持Windows/MacOS/Linux/网页版平台。
3、坤通专线是坤通科技面向教育与科研领域超算用户打造的新一代网络基础设施,10Gbps光纤专线直连超算,为用户免费提供低延迟、高吞吐的高质量超算接入网络。
5.2 平台和工具
  • 坤通超算云桌面
坤通超算云客户端软件,直通全国各大超算中心,在一个桌面内即可完成数据传输、图形化 作业提交、SSH命令行交互、作业状态监控远程可视化前后处理,以及查看费用详单。
  • 手机端程序
随时随地查看和管理作业,发现问题及时处理,通过获取Gfkops值得出作业性能指数,随时查杀作业,查阅机时费用详单。
  • 用户版
通过Paramon前台实时查看自己所提交作业性能,分析应用程序运行性能瓶颈,平台可以给出优化建议辅助用户提高整体系统的 利用率。
  • 人工智能版
面向人工智能使用GPU计算场景,清晰直观实时展现各GPU卡利用率、显卡使用率以及温度等性能指标,一键快速查看各GPU卡使用模式等配置信息,助人工智能程序提速。
  • 坤通超算云机时月报
定期发送机时使用分析报告,展示机时使用消费情况、统计作业提交情况、分析作业成功率以及常用作业类型和规模,汇总在报告区间内出现的问题及解决的方案。

 
  1. 应用领域
6.1 人工智能应
  • 项目背景:
ensorFlow一大亮点是支持异构设备分布式计算,它能够在各个平台上自动运行模型,从手机、单个CPU/GPU到成百上千GPU卡组成的分布式系统。目前,AI相关计算规模需求快速增长,需要利用超算资源来满足AI训练计算规模,并且,对于各种加速设备,如GPU、KNL,也非常适合运行机器学习应用程序。
 
  • 解决方案:
坤通科技充分利用中国国家网格优势,支持多超算、多平台进行高性能计算方案,提供了超算平台的CPU/GPU 环境支持TensorFlow等模块的AI计算,支持KNL计算平台进行AI领域的计算支持,提供了完善的人工智能应用解决方案。
 
  • 平台演示:
在广州超算、长沙超算、KNL平台展示了AI领域TensorFlow的测试和运行过程,测试算例主要 针对四种典型的神经网络VGG-A/OverFeat/AlexNet
/GoogLeNet 开展。

 
  • 应用案例:
利用多超算实现人工围棋软件的计算支持,参加全世界围棋人工智能大赛。
 
  • 方案特点:
完善的AI解决方案,超高的性价比。

6.2 超算云平台业务化
  • 项目背景:
某业务化系统要求每天全自动化定时定点完成,具有很强的时效性。任何因素造成业务作业的异常,都有可能导致无法按时完成任务,因此,在业务系统中,不仅需要准确定时地启动业务作业流程以及保证它们的时序关系,而且要求实时监控和报告业务作业运行过程中发生的任何异常,以便及时处理,确保业务作业的及时准确。
 
  • 解决方案:
①多超算及计算节点备案,避免硬件故障影响业务化作业;
②多云端主机备案,避免云端故障影响数据传输;
③多链路并发传输文件,自动选择最优链路,提高传输效率;
④实现全自动化运行业务化作业,全程无人工干预;
⑤专家团队协助优化程序,解决程序性能问题;
⑥全天候人工监控作业,第一时间发现并解决问题。
 
  • 用户受益:
①坤通超算云提供多家超算资源、云端资源极其备用资源,现多家超算备案、自动选择最优链路传输文件;
②分析并解决程序性能瓶颈,降低程序故障,提高作业计算率,单个作业计算速率最高可提高75%;
③坤通超算云业务化解决方案,面向需要在超算上实现复杂业务流程,且业务具有时效性、持续性,需要高稳定性和正确性 的用户。坤通科技能够帮助用户优化搭建超算上运行的业务流程,优化业务模块,最终实现定制业务在超算上的稳定运行。

6.3 应用SaaS定制化
  • 项目背景
某汽车工程研究院系国家一类科研院所,拥有强大的研发和试验检测能力,业务范围主要涉及各类汽车产品的开发、设计与研究,各类汽车整车及总成、零部件的试验研究与质量检测等。该用户具有大规模、批量化、持续性在超算使用STAR-CCM软件的生产需求,针对用户使用习惯,坤通科技为其量身定制了该应用软件的SaaS化超算端解决方案。目前,用户可以直接使用"坤通超算云桌面"的SaaS化提交作业,完成STAR-CCM的算例计算,大幅度提高工作效率。
 
  • 解决方案
1.一键提交:SaaS化应用提交,工作流高度简化自动化,真正实现一键提交
2.高速网格:数据高速传输专线,协议优化,充分利用宽带资源
3.中国国家网格:多超算提交能力,资源互备,业务中断
 
  • 用户受益
以客户的真实应用场景为依据,帮助客户梳理工作流程,结合我们操作快、传输快、计算快、分析快等优势,删繁就简, 在保证满足工作需求的前提下,保留核心关键步骤,并在此基础上对交互进一步优化,降低操作门槛,将提交环节的体验优化到极致, 真正做到一键提交,提高用户生产力。
应用SaaS定制化解决方案,适合于习惯使用图形界面,以及对超算系统不熟悉、直接使用超算有一定困难的用户。基于中国国家网格与 坤通科技多年深耕细作基础上,为用户打造专属的SaaS服务,将软件安装、调试、提交等全套流程集成在一个界面,达到方便快捷的超算使用体验, 同事兼具中国国家网格在资源、性能、可靠性等方面的优势。

6.4 应用与优化
  • 项目背景
hpMusic软件主要用来对CFD(即计算流体力学)应用进行数值模拟。CFD是目前国际上一个影响广泛的研究流域,主要应用于航天设计、 汽车设计、生物医学工业、化工处理工业、涡轮机设计、半导体设计、HVAC&R等诸多工程领域。可见对CFD的研究会直接影响社会上 众多关于国计民生的工程项目,由于CFD领域问题的复杂性也使得解决这些问题存在诸多挑战,应用性能差无法充分发挥现有硬件资源计算能力 就是其中的一个重要问题。我们以hpMusic软件为例子,通过使用先进的性能测试工具对该软件从硬件级、系统级和微架构级别进行了性能给分析, 并采用响应的优化手段取得了较好的优化效果。
 
  • 应用优化软件+服务
凭借专业的工具,依据科学的数据统计和分析,提供客观的hpMusic系统优化基础数据,才能保证hpMusic系统优化的正确性和高效性, 测试工具选择了坤通科技自主研发的Paramon应用应用运行特征采集软件和Paratune应用运行特征分析软件作为优化的支持平台。

坤通科技在应用优化领域有多年研究基础和实践经验,具有业内最顶尖的优化团队,优化团队立足于行业应用,以硬件架构发展为导向,为用户应用 软件从应用级、函数级、代码级等多方面进行深层次的分析,挖掘软件程序存在的性能瓶颈,采用应用级、函数级、代码级等多种优化方法对程序热点进行代码现代化 改造,以充分发挥硬件资源的处理能力。
 
  • 用户受益
凭借高效、专业的Paramon和Paratune工具软件,以及坤通科技应用优化团队的丰富经验,使hpMusic软件模块性能大幅提升:
1.软件浮点运算速率百分比由原来的1.33%提升为4.85%
2.CPU利用率由原来的66.79%提升为100%
3.相同算例在10个节点上进行测试,性能加速比达到3.19X

6.5 远程提交的图形交互
  • 项目背景
Materials Studio (MS) 是最常用的材料计算模拟软件之一,可进行动力学模拟、量子力学计算、结构性优化、性能预测和X射线衍射分析 等模拟计算。传统的使用方法一般在本地PC机或小集群进行计算,收到计算规模、机器性能等限制,而且无法看到作业运行状态等信息。坤通科技提供的超算端提交方式完美的解决了这些问题,可以让用户在无需学习linux的前提下,即可使用丰富优质的超算资源,并且可以随时查看作业运行的详细信息。
 
  • 解决方案
通过坤通科技在超算端进行配置后,用户首次打开本地Materials Studio客户端时,只需配置网关即可完成与超算的对接,选择程序响应参数、队列,一键提交到后台, 同时可登陆用户板Paramon查看当前作业性能。算例运行结束后可通过本地界面进行分析或下载数据进行二次处理。
 
  • 用户受益
① 使用超算端方式提交Materials Studio作业,无需担心断网断电问题
② 数倍于本地的可选规模,极大提高用户工作效率
③ 在线分析作业性能,大幅提升资源利用率
 
Materials Studio远程提交的图形交互解决方案,极大方便了习惯于Windows平台的用户。同时这一方案不仅仅局限于该软件, 凡是可利用http协议进行远程方式提交的软件,均可使用此模式实现超算调用。典型的应用有材料模拟、CFD等行业的成熟商业软件,例如Ansys,LS-DYNA,CFX等。
  1. 方案与案例

7.1 教育科研高性能计算方案
“买建管用运营” 全生命周期的软件、服务支持
坤通科技为教育科研用户提供面向高性能计算、人工智能方向"买、建、管、用、运营"全生命周期软件产品和技术支持,实现平台资源的合理调度与管理,减少建设周期、 降低投入成本,为各学科提供高效、便捷的计算服务。
该方案具有良好的兼容性和健壮性,可便捷的获取软/硬件管理,性能瓶颈分析、运维支撑能力,消除平台与用户之间的鸿沟,降低平台学习成本,专注科研生产,提升效率与产能, 引进先进的运营管理能力。

7.2 仿真制造高性能计算方案
坤通科技面向仿真制造领域为企业 供高性能计算私有云平台, 利用门户系统、三维可视化技术、运营大数据分析等系统实现对 高性能计算资源和存储资源云华管理,最终用户可通过Web浏览器便捷地完成批处理应用、交互式应用以及数据管理等工作,极大程度地简化了 高性能计算资源管理和使用的复杂度。该方案已在汽车、船舶等行业广泛应用。

7.3 能源勘探行业高性能计算方案
坤通科技为教育科研用户提供面向高性能计算、人工智能方向"买、建、管、用、运营"全生命周期软件产品和技术支持,实现平台资源的合理调度与管理,减少建设周期、 降低投入成本,为各学科提供高效、便捷的计算服务。
该方案具有良好的兼容性和健壮性,可便捷的获取软/硬件管理,性能瓶颈分析、运维支撑能力,消除平台与用户之间的鸿沟,降低平台学习成本,专注科研生产,提升效率与产能, 引进先进的运营管理能力。

7.4 气象海洋高性能计算方案
坤通科技为气象、海洋用户配备完备的坤通计算开发和运行环境,通过高性能计算集群进行数值计算,求解描写流体演变过程的流体力学和热力学的控制方程组,预测未来一定时段的流体运动状态和大气、海洋现象, 包含针对不同模式软件开发的Web作业提交界面,提供常用数值模式的安装、调试和培训服务,并配合用户完成数值预报业务系统的安装调试,可以大大降低高性能计算机的使用门槛。

7.5 军工科研高性能计算方案
坤通科技面向国内军工科研用户提供设计、计算一体化私有云平台,利用门户系统、三维可视化技术、运营大数据分析等系统实现对高性能计算资源和存储资源云化管理, 最终用户可通过Web浏览器便捷地完成批处理应用、交互式应用以及数据管理等工作,极大程度地简化了高性能计算资源管理和使用的复杂度。该方案已在航空航天、船舶等行业广泛应用。

7.6 人工智能GPU解决方案
坤通科技提供人工智能领域GPU解决方案,基于自主研发的高性能计算平台,具备丰富的集群管理功能,如用户管理、集群资源管理、作业调度系统、性能分析等功能,同时包含了多种深度学习框架,如Caffe、Tensorflow、MXNet、PyTorch、Keras等,用户可以直接编写算法,调用人工智能平台中的软件、函数库,进行训练学习,同时支持容器技术,免除深度学习框架的安装、部署等操作,为用户提供便捷的使用环境。

坤通科技

坤通科技

广东坤通科技有限公司

地址: 广州市天河区高唐路263号805、806 电话:020-85162923

邮件:service@kunton.com 联系人:宋小姐