1.阿里巴巴推出语音合成模型CosyVoice,能生成具有情感和风格的逼真人声,与SenseVoice模型共同构成FunAudioLLM框架,提升语音交互体验,支持多语言识别和情感交互,预示着人机交互新时代的到来。
2.桌面Chrome的Google Lens新增AI升级,支持多重搜索和基于搜索历史的问答功能。全球更新将至,但部分功能限美国用户。
3.月之暗面科技发布Kimi企业级API,提供高效、安全模型推理及专属技术支持,专属技术支持服务,并为用户带来下一代模型的优先体验。支持长文本处理,适用于多种场景。
4.Stability AI推出了Stable Fast3D技术,能在半秒内从单张图像生成3D图像,速度提升1200倍。该技术基于增强的transformer网络和创新的材料照明估计方法,可广泛应用于设计、建筑、零售、虚拟现实和游戏开发等行业。
5.香港大学与MIT联手开发的ItiNera系统,是一个开放域城市行程规划工具,能根据用户自然语言请求生成个性化Citywalk路线。该系统结合空间优化和大型语言模型,创建个性化POI数据库并打造空间连贯的行程,已在TuTu在线旅行服务上成功部署。
6.Gartner预测到2025年,由于成本过高,至少30%的生成式AI业务将被企业放弃。AI项目成本高昂,定制模型初期投入可达500-600万美元,而从头开发则需2000万美元。