科技记者报道: 在《5000天后的世界》一书中,凯文·凯利预测称雄增强现实(AR)的将不是目前的科技巨头GAFA(谷歌、苹果、脸书、亚马逊),而是新兴的创新者。历史表明,主导一个时代的企业往往无法在下一个时代继续领先,因为它们的成功成为创新的障碍。尽管谷歌在人工智能通用智能(AGI)领域投入巨大,但仍落后于OpenAI。OpenAI的GPT-4等强大模型的开发成功,揭示了大型科技公司创新不足的问题。 OpenAI的联合创始人兼总裁格雷格·布罗克曼在接受可汗学院CEO萨尔曼·可汗的采访时,揭示了OpenAI成功的秘诀。OpenAI的团队不仅拥有学术背景的研究人才,还有优秀的工程人才,这种组合使他们能够更有效地解决问题和推动项目进展。布罗克曼强调了研究与工程并重的方法,以及团队组织方式对于创新的重要性。 OpenAI的使命是建立造福人类的AGI,并已经在这一目标上工作了8年。团队致力于建立更大的神经网络,提高其能力、协调性和安全性,并部署这项技术以发挥其作用。布罗克曼认为,每一步进展都能真正产生影响,并开始造福人类。 面对人工智能的安全性问题,布罗ckman认为对AI持有复杂情感是正确的,既要对新事物感到惊奇,也要警惕潜在的陷阱。他提到,AI安全问题有着悠久的历史,而OpenAI在不断学习如何面对这些风险。 在教育领域,ChatGPT被视为一个工具,可以帮助无法获得优质教育资源的学生。布罗克man强调,制定规则和将技术融入教育需要广泛的意见和实践经验。 最后,布罗克man和可汗都认为人工智能将增强而非削弱人类能力,每个人都可以通过智能手机获得AI的“超能力”。乐观是推动OpenAI前进的关键因素。

科技记者报道: 今年3月,人工智能领域的重要人物Mustafa Suleyman离开Inflection AI,加入微软领导其AI部门。微软在AI人才争夺战中胜出,而Inflection AI则面临领导层变动。Suleyman带领约70名团队成员转投微软,引发对Inflection AI未来影响的讨论。 Inflection AI已获得15.25亿美元融资,专注于开发具有情感共鸣的个人AI助理Pi。公司宣布由经验丰富的硅谷老将组成的新领导团队,包括新任CEO Sean White、CTO Vibhu Mittal、COO Ted Shelton和产品负责人Ian McCarthy。 微软支付近6.5亿美元给Inflection,其中6.2亿美元用于非独家技术许可,3000万美元用于避免诉讼。Inflection AI联合创始人Reid Hoffman表示公司资金充足,将在情感智能领域保持领先。 新团队致力于打造具有同理心的聊天机器人,专注于EQ(情感智能),与OpenAI、微软、谷歌等行业巨头竞争。Pi在EQ测试中表现出色,能够提供个性化和情感化的回应。 Inflection AI计划建立EQ的行业基准,并通过“移情微调”定制个性化模型。公司与企业合作,降低培训成本,并提供品牌特定的人工智能客服。

科技记者摘要: 华中科技大学、华南理工大学及浙江大学的研究人员提出了一种新的文本识别方法VimTS,旨在提高跨领域文本端到端识别的泛化能力。该方法通过实现不同任务之间的协同作用,仅使用较少参数便有效地将原始的单任务模型转换为适合图像和视频场景的多任务模型。VimTS包括一个提示查询生成模块和一个任务感知适配器,两者共同促进不同任务之间的显式交互,并帮助模型动态地学习适合每个任务的特性。研究人员还提出了一个利用内容变形场(CoDeF)算法的合成视频文本数据集(VTD-368k),以更低的成本学习时间信息。实验结果显示,VimTS在多个跨域基准测试中超越了现有方法,包括图像到图像和图像到视频的识别任务。论文链接:https://arxiv.org/pdf/2404.19652,代码地址:https://vimtextspotter.github.io。

科技记者报道:厦门大学与腾讯优图团队推出名为“领唱员(Cantor)”的多模态思维链架构,该架构无需额外训练即可显著提升性能。在ScienceQA数据集上,基于GPT-3.5的Cantor准确率达到82.39%,较传统思维链方法提升4.08%。在MathVista数据集上,Cantor的准确率比原始Gemini模型高出5.9%。Cantor架构通过结合视觉和文本信息,避免了决策幻觉,并通过专家模块提供高级推理信息。该架构的设计包括决策生成和执行两个步骤,并通过模块化执行和汇总执行来生成最终答案。Cantor的性能超越了微调方法,且已开源,相关论文已上传至arXiv。

国产开源项目Sora迎来更新,全面支持国产AI算力,包括华为昇腾。此次更新包括了视频编辑功能,用户可以使用ReVideo进行视频编辑。该项目由北京大学和兔展团队联合开发,所有数据、代码和模型均已开源。Open-Sora-Plan在GitHub上获得10.4k颗星星,用户可以在抱抱脸上进行试玩。项目团队对Sora进行了版本迭代,采用了更高质量的视觉数据与caption,并优化了CausalVideoVAE的结构。最新版本Open-Sora-Plan v1.1.0展示了视频生成的能力,包括10秒和2秒的文本生成视频,以及视频编辑功能。团队还展示了失败案例,并提出了可能的解决方案。用户可以在Hugging Face上试玩,但需要注意的是,生成每个视频大约需要4-5分钟。背后的技术框架包括Video VAE、Denoising Diffusion Transformer和Condition Encoder。项目目前仍在训练和观察第三阶段的模型,预计将增加帧数至513帧,约合21秒的视频。与前作相比,最新版本在CausalVideoVAE结构和数据质量上进行了优化。

科技记者报道: Octo,一个基于Transformer的机器人学习系统,被誉为当前最强大的开源机器人模型。它能够适应多样化的机器人形态和任务,无需额外训练即可完成多种操控任务,并能在一定程度上适应新机器人形态和新任务。Octo的灵活性类似于八爪鱼,能够轻松应对各种机器人应用。 传统的机器人学习方法通常需要为特定机器人和任务收集数据集,然后训练策略。然而,这种方法往往需要大量数据,且策略泛化能力有限。Octo模型通过从其他机器人和任务中收集经验,提高了机器人在新任务上的泛化能力和性能。 构建“通用机器人模型”一直是一个挑战。Octo模型团队,由来自加州大学伯克利分校、斯坦福大学、卡内基梅隆大学和谷歌DeepMind的18位研究者组成,发布了他们的开创性研究成果。Octo模型有效地克服了以往模型的局限性,包括输入观察的预定义和有限性、模型在新领域微调的困难,以及大型模型未开放给公众使用的问题。 Octo的核心是Transformer架构,它可以将任意输入token映射成输出token,进而编码成动作。该模型使用多样化的机器人和任务数据集进行训练,无需额外训练即可接受不同的相机配置,控制不同的机器人,并通过语言命令或目标图像进行引导。最重要的是,Octo能够适应传感器输入、动作空间或机器人形态不同的新机器人配置,仅需少量计算预算和目标领域数据集进行微调。 Octo已经在迄今为止最大的机器人操控数据集上完成了预训练,包含来自Open X-Embodiment数据集的80万个机器人演示。它是首个可有效微调至新观察和动作空间的通用机器人策略,也是首个完全开源的通才机器人操控策略。该团队在论文中强调了其组合Octo各组件的独特创新性。

科技记者报道: 人工智能(AI)智能体的宣传与现实表现存在差距。虽然大语言模型(LLMs)在性能、准确度和稳定性上有所提升,但现有版本的LLMs综合能力不足以完全支撑AI智能体。多模态、多任务、多领域已成为AI智能体的必要要求,但其实际效果并不理想。WebArena排行榜显示,即使表现最好的模型,成功率也只有35.8%。AI智能体初创公司和大型科技巨头被提醒要脚踏实地,从AI增强功能做起。当前构建AI智能体主要有单一智能体和多智能体系统两种架构方法。实践中,AI智能体面临可靠性、性能成本、法律问题和用户信任等挑战。一些初创公司如adept.ai、MultiOn、HypeWrite和minion.ai正在涉足AI智能体领域,但大多数仍处于实验阶段。大公司如OpenAI、Google和微软也在将AI功能带到桌面和浏览器,但这些智能体功能在真实场景中的表现还有待观察。AI智能体被过度炒作,但随着技术进步,人们可以期待更多成功的实际应用。近期重点应放在利用AI增强现有工具,而不是提供全自主服务。通过人机协同和传统工程方法,AI智能体有望在自动化复杂任务方面取得良好成果。

斯坦福大学助理教授杨笛一参与的最新研究提出了一种利用大语言模型(LLM)来训练社交技能的框架,旨在帮助人们更有效地进行沟通。该框架包括两个部分:AI Partner和AI Mentor。AI Partner通过模拟对话提供可扩展的体验式训练,减少学习风险和成本;AI Mentor则根据专业知识和事实提供个性化反馈。研究者认为,这种方法可以使社交技能训练更容易、更安全、更有吸引力,并呼吁跨学科创新以解决其广泛影响。杨笛一表示,APAM系统利用LLM通过现实实践和定制反馈进行社交技能训练,适用于初学者和有经验的学习者,并在多个领域提高技能,包括倾听和心理健康咨询等。尽管LLM在社交技能训练中潜力巨大,但研究者也强调了评估挑战,并提出了包括内在和外在评估程序的综合评估方案。

中国科学院计算技术研究所的张海仓和卜东波团队开发了一种名为CarbonDesign的新方法,用于蛋白质序列设计。这种方法受到AlphaFold模型的启发,并针对蛋白质序列设计进行了算法改进。CarbonDesign能够准确且稳健地设计蛋白质序列,适用于多种蛋白质设计场景,并能预测蛋白质突变的功能影响。该研究成果发表在《Nature Machine Intelligence》上,论文标题为《Accurate and robust protein sequence design with CarbonDesign》。CarbonDesign的核心是利用新颖的网络架构Inverseformer作为主链结构编码器,并利用马尔可夫随机场(MRF)模块作为序列解码器。Inverseformer学习蛋白质结构的单点表示和成对表示,并用这些表示参数化马尔可夫随机场的单体项和双体项。CarbonDesign还采用了网络循环策略和多任务学习策略,同时生成蛋白质序列和对应的侧链结构。研究人员使用不同的数据集广泛评估了CarbonDesign,包括CAMEO数据集、CASP15数据集以及AlphaFold的预测结构。结果表明,CarbonDesign在多种蛋白质设计场景中显示出实用性,并能够以零样本学习的方式预测序列变异的功能效应。CarbonDesign是CarbonMatrix-蛋白质AI设计平台的一部分,该平台还包括CarbonNovo和AbX,用于端到端的蛋白质从头结构和序列设计,以及抗体设计。这些工具近期发表在AI顶会ICML 2024上,并将开源供业界使用。

GitHub CEO推出了Copilot Workspace,这是一个革命性的工具,允许开发者通过编写简单的英语句子来创建应用程序,从而将传统的编码过程转变为更直观的自然语言交互。这一创新有望降低编程门槛,让更多人能够参与到软件开发中来。

2024腾讯全球数字生态大会于9月5日在深圳举行,腾讯云披露过去一年成绩显著,服务超过200万家客户,国际业务增速保持在两位数以上。同时,腾讯发布了新一代大模型“混元Turbo”,性能大幅提升,并已在腾讯云上线。腾讯云还发布了AI infra品牌“腾讯云智算”和RAG解决方案,提供领先的AI计算能力和定制化应用支持。面对企业“内卷式竞争”困境,腾讯汤道生提出破局增长三个方向:以数提效、顺势而为、扬帆出海,建议企业聚焦核心场景提升效率、抓住新产业机会、开拓全球市场。腾讯混元大模型已落地700多个业务场景,腾讯云积极助力国产软件产业崛起,为企业增长开拓新机会。

百度发布新搜索产品“文小言”,升级为智能助手,推出富媒体搜索、多模态输入、文本与图片创作、高拟真数字人等新功能,并强调个性化与“新搜索”体验。新搜索旨在理解用户问题,整理信息,给出贴近的答案或解决方案,弥补传统搜索引擎意图理解不足的问题。大模型技术推动了搜索从“提供信息”向“直接获取答案”的转变。

测试摘要,来自chang zheng

本文旨在为读者提供一个全面的人工智能学习指南,涵盖从基础概念到高级技术的方方面面。我们将通过理论讲解、代码示例和应用场景分析,帮助读者深刻理解人工智能、机器学习、算法、深度学习和计算机视觉的基本原理和实际应用。