由于下一代升级,谷歌的 Gemini AI 现在可以处理更大的提示

By xudeyong

My Experience

这是关于我的简短介绍。我喜欢与互联网上的朋友分享科技资讯。如果你喜欢我分享的文字和图片,请告诉我。这将鼓励我与你分享更多。祝你好运 ~


在撰写本文时,谷歌的 Gemini AI 才问世两个月,但该公司已经推出了名为 Gemini 1.5 的下一代模型。

公告帖子详细解释了人工智能的所有改进。 这一切都相当技术性,但主要的收获是 Gemini 1.5 将提供“显着增强的性能”。这是通过实施“专家混合架构”(简称 MoE)来实现的,该架构让多个 AI 模型协同工作 实施这种结构使 Gemini 比以前更容易训练,并且能够更快地学习复杂的任务。

计划对所有三个主要版本的 AI 进行升级,但今天发布的唯一进行早期测试的是 Gemini 1.5 Pro。

它的独特之处在于该模型具有“最多 100 万个令牌的上下文窗口”。 与生成人工智能相关的代币是 LLM(大型语言模型)用来“处理和生成文本”的最小数据片段。 更大的上下文窗口允许人工智能一次处理更多信息。 而一百万个代币是巨大的,远远超出了 GPT-4 Turbo 的能力。 为了进行比较,OpenAI 的引擎的上下文窗口上限为 128,000 个代币。

Gemini Pro 的实际应用
有了这些数据,问题是 Gemini 1.5 Pro 实际运行时是什么样子? 谷歌制作了多个视频来展示人工智能的能力。 不可否认,这是非常有趣的东西,因为它们揭示了升级后的模型如何根据提示分析和总结大量文本。

例如,他们向 Gemini 1.5 Pro 提供了阿波罗 11 号登月任务的 400 多页记录。 它表明人工智能可以“理解、推理和识别”文件中的某些细节。 提示器要求人工智能找出任务期间的“喜剧时刻”。 30 秒后,Gemini 1.5 Pro 成功找到了宇航员在太空中讲的几个笑话,包括谁讲的并解释了所引用的内容。


这些分析技能可用于其他模式。 在另一个演示中,开发团队给人工智能播放了一部 44 分钟的巴斯特·基顿电影。 他们上传了喷水塔的草图,然后询问涉及水塔的场景的时间戳。 果然,它在影片开始十分钟后就找到了准确的部分。 请记住,这是在没有对绘图本身或除问题之外的任何其他文本进行任何解释的情况下完成的。 Gemini 1.5 Pro 无需额外帮助即可理解这是一座水塔。

实验技术
该模型目前尚未向公众开放。 目前,它正在通过 Google 的 AI Studio 和平台免费向“开发人员和企业客户”提供早期预览版。 该公司警告测试人员,由于它仍处于实验阶段,他们可能会遇到较长的延迟时间。 然而,有计划提高线路速度。

我们联系了 Google,询问人们何时可以期待 Gemini 1.5 和 Gemini 1.5 Ultra 以及这些下一代 AI 模型的更广泛发布的信息。 这个故事稍后会更新。 在此之前,请查看 TechRadar 对 2024 年最佳人工智能内容生成器的综述。