网站截图
General Compute是全球领先的AI推理服务提供商,和市面上绝大多数采用通用游戏GPU的推理服务商不同,其采用专为推理场景优化的专用ASIC芯片架构,可实现亚毫秒级首包响应时间、每秒1000token的推理速度,整体推理效率是同类产品的7倍。平台提供完全兼容OpenAI规范的API接口,开发者无需大量改造现有代码即可快速完成部署迁移,核心定位是为AI开发者、企业级用户提供高吞吐、低延迟的AI模型推理服务,大幅降低推理环节的算力成本,提升AI产品的用户交互体验,目前新用户注册即可获得200美元的免费使用额度,也支持预约专属演示对接定制化需求。
采用该平台部署大语言模型,可实现单请求每秒输出1000token的速度,亚毫秒级的首响应延迟让AI对话类产品几乎无感知等待,高吞吐能力可支持单节点同时处理数万级并发推理请求。相比通用GPU推理方案,相同算力成本下可承载7倍的推理请求量,适合对响应速度、并发量有高要求的C端AI产品、企业级AI服务场景使用,实测相同推理任务下,整体算力成本可降低70%以上。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
20 天前
当地时间2026年4月28日,英伟达正式推出开放式多模态大模型Nemotron3Nano Omni,该产品采用30B-A3B混合专家架构,内置视觉与音频编码器,可同步处理视频、音频、图像、文本四类内容。官方数据显示其吞吐量为同类开放式全向模型的9倍,在六大权威多模态能力排行榜中均位列第一,可大幅降低开发者部署AI应用的成本。

21 天前
2026年4月27日,日本AI创业公司LifePrompt公布最新测试结果:搭载OpenAI最新模型的ChatGPT,在日本顶尖学府东京大学、京都大学本科入学考试中取得远超录取线的成绩。其中东大理科三类医学方向入学考中,ChatGPT斩获数学满分,总分较人类考生最高分高出50分,打破人类状元纪录,较2024年测试的“落榜”表现实现跨越式突破。

1 个月前
谷歌近日面向企业级客户发布全新AI推理管控套件,针对当前企业部署大模型时平均推理成本占AI总支出60%以上、峰值时段服务可用性不足92%的行业痛点,提供动态算力调度、故障自动切换等功能,可帮助企业将推理环节综合成本降低30%左右,同时大幅提升生成式AI服务的运行稳定性。

1 个月前
国内AI大模型领军企业阶跃星辰(Stepfun)于2026年4月2日正式发布Step 3.5 Flash系列大模型,该系列针对移动端、高频交互场景深度优化,在保留核心逻辑理解与多模态处理能力的前提下实现毫秒级响应,推理成本大幅降低,目前所有Step Plan付费用户已获得首批体验权限,标志着国产大模型在性能与成本平衡赛道取得新突破。

1 个月前
近日,谷歌正式推出全新AI推理优化技术TurboQuant,瞄准当前企业规模化部署AI推理服务、长上下文大模型应用时普遍遭遇的GPU显存约束痛点,可在推理精度损失控制在1%以内的前提下大幅降低单任务显存占用,有效降低企业AI落地的硬件采购与运维成本。

1 个月前
2026年3月26日,谷歌研究团队正式推出全新向量量化压缩算法TurboQuant,依托PolarQuant与QJL两项创新技术,可将大语言模型推理环节的键值缓存(KV Cache)内存需求降低至少6倍,在英伟达H100 GPU上实现注意力计算最高8倍提速,且测试显示全程零精度损失,无需额外训练即可落地,有望大幅压低大模型部署成本,推动长上下文应用普及。

1 个月前
AI基础设施初创公司Gimlet Labs近日完成8000万美元A轮融资,其核心技术可实现AI推理负载在NVIDIA、AMD、Intel、ARM、Cerebras、d-Matrix等多厂商不同架构芯片上的同时调度运行,以轻量化方案破解当前行业普遍面临的AI推理算力瓶颈,为大模型规模化落地降本提效提供了全新技术路径。

2 个月前
2026年3月17日举办的GTC大会上,英伟达创始人黄仁勋正式宣布推出太空计算服务,将数据中心级AI推理能力扩展至近地轨道,为卫星星座、自主空间站提供底层算力支持。其核心硬件Space-1 Vera Rubin模块相较H100 GPU,太空环境下AI计算性能提升达25倍,标志着英伟达算力版图首次延伸至外太空领域。