大模型专题::大模型开源轻量端侧化,视频与语音加速落地
今天分享的是:AI大模型专题::大模型“开源、轻量、端侧”化,视频与语音加速落地
报告共计:22页
本报告主要分析了AI大模型的发展趋势及AI生成视频和语音功能对相关产业的影响。大模型方面,开源模型发展迅速,能力接近闭源产品水平,如Llama3.1性能追平GPT-4o和Claude3.5Sonnet,2024年以来开源模型频现且不断刷新能力;大模型呈现“轻量化”趋势,性价比快速提升,吸引众多机构关注;端测模型发展,大模型专题::大模型开源轻量端侧化,视频与语音加速落地苹果和三星等已布局AI硬件,苹果AI模型受人类评分者青睐,支持多种功能。AI生成视频方面,sora打破时长限制树立行业标准,采用DiT思路体现“涌现”能力;6月以来多家团队推出AI视频产品,产业加速发展,如快手可灵多次升级并尝试商业化,智谱“清影”作为大模型公司入局,RunwayGen-3Alpha画质领跑,LumaDreamMachine借助3D资产经验拓展。语音功能方面,以GPT-4o语音为代表,相比传统TTS信息更多,如无延迟对话、理解和表达情感等;字节跳动Seed-TTS在表现力上接近人类水平;ChatTTS可预测和控制韵律特征。在应用端,语音功能可提升教育和情感陪伴应用体验,如多邻国、可汗学院和网易有道在教育场景的应用,CharacterAI在情感陪伴方面的功能受好评。整体上看好AI技术对内容产业的推动作用,未来可关注游戏等应用改造、教育赛道及情感陪伴与社交等领域的发展。
以下为报告节选内容
免责声明:本网站部分内容由用户上传,若侵犯您权益,请联系我们,谢谢!联系QQ:2760375052