社区

当前位置：首页社区离开 OpenAI 的大神卡帕西「开课了」：新项目日增千星，还是熟悉的 min 代码风

离开 OpenAI 的大神卡帕西「开课了」：新项目日增千星，还是熟悉的 min 代码风

您是不是想找：大神同学想要被吃掉,才对[笑哭]大神网易官网大神网易大神app大神网易app官方下载大神云电脑大神直播大神与七位伙伴大神的拼音怎么读大神同学想要被吃掉,才对[笑哭]有翻译

大神 Karpathy 从 OpenAI 离职，原本扬言要大休一周。

但转眼，新项目就已上线 GitHub，日增上千星的那种。

还是熟悉的卡式配方：

74 行 Python 代码搞定大模型标记化（tokenization）中常用的 BPE（Byte Pair Encoding）算法，实现该算法的最小、最干净代码版本。

甚至：

是不是有点快 3 万标星的 nanoGPT 内味儿了？这波啊，还真是让网友们给猜着了：

Time to cook。

毕竟，Karpathy 除了前特斯拉 AI 总监、OpenAI 创始成员的 title，最为网友所熟悉的，就是“AI 领域大善人”、“擅长将复杂问题简单化的卡老师”这样的身份了（手动狗头）。

BPE 代码最小化版本

还是具体来看一下，Karpathy 老师这次又煮出了一锅什么样的饭。

项目名 minbpe 已经说明一切：BPE 算法的最小、最干净代码版本。

BPE（字节对编码）是随着 GPT-2 而流行起来的标记化算法。现在，包括 GPT 系列、Llama 系列和 Mistral 在内，一众大模型都用到了这一算法来训练分词器。

BPE 的主要优势在于：

高效：通过合并频繁出现的字节对来逐步构建词汇表，可以有效地减少模型需要处理的词汇量。

灵活：可以将词汇表外的单词分解为已知子词来进行处理，有助于模型理解和生成未在训练中出现的单词。

而在 minbpe 这个项目中，Karpathy 提供了两个 Tokenizer（分词器），它们都可以执行分词器的 3 个主要功能：

基于特定文本训练词汇表和合并操作

把文本编码成 token

把 token 解码为文本

具体而言，在 basic.py 中，minbpe 用 74 行 Python 代码，完成了对直接在文本上运行的 BPE 算法的最简单实现。

在 regex.py 中，minbpe 实现的是一个正则表达式分词器，该分词器利用正则表达式进一步拆分输入的文本。

另外，在正则表达式分词器的基础之上，minbpe 还在 gpt4.py 中提供了一个 GPT4Tokenizer，可以准确在线 tiktoken 库中的 GPT-4 标记化。

注：tiktoken 是一种快速 BPE 分词器。

base.py 则是一个基类，包含了训练、编码和解码的存根（stubs），提供了保存和加载的功能，并集成了一些常见的辅助工具函数。在实际应用中，开发者应该通过继承这个基类来实现具体的分词器功能。

Karpathy 提到，他在霉霉的维基百科文本上尝试训练了两个主要的分词器。train.py 在他的 M1 MacBook 上运行时间大概为 25 秒。

如果你还有什么不清楚的地方，别担心，卡老师已经计划要出视频了：

Karpathy 出走 OpenAI，许多猜测指向他的“下一篇章”是大语言模型系统（LLM OS）：

如今正式工作还未揭示，但看样子 Karpathy 已经拾起了“教学育人”的副业，小伙伴们可以蹲起来了。

参考链接：

https://github.com/karpathy/minbpe/

本文来自微信公众号：量子位（ID：QbitAI），作者：鱼羊

本文收录在

资讯
分类：资讯
大神
标签：大神

相关文章推荐

Array

大神们，现在有没有手游可以搬砖的游戏啊，一天几十的就可，稳定一点的了解的大神说说？

大神们，现在有没有手游可以搬砖的游戏啊，一天几十的就可，稳定一点的了解的大神说说？

为什么网吧大神不租个房子拉个网线？

为什么网吧大神不租个房子拉个网线？

当年天涯论坛有哪些大神？

DNF 大神玩家旭旭宝宝花了多少钱?

DNF 大神玩家旭旭宝宝花了多少钱?

关于拼多多token怎么抓取有没有知道的大神，求指教？？

关于拼多多token怎么抓取有没有知道的大神，求指教？？

ChatGPT！见证AI的力量！

ChatGPT！见证AI的力量！

单片机、嵌入式的大神都平时浏览什么网站？

单片机、嵌入式的大神都平时浏览什么网站？

2月5号快乐8高手大神最新选七复试预测奖号:01 06 18 23 24 40 58

2月5号快乐8高手大神最新选七复试预测奖号:01 06 18 23 24 40 58

这样扫榜真能出成绩丨小白网文扫榜实操丨148

这样扫榜真能出成绩丨小白网文扫榜实操丨148

李一舟回应AI课程引争议：事件被误解和夸大

李一舟回应AI课程引争议：事件被误解和夸大

怎么才能成为一个nodejs大神？

怎么才能成为一个nodejs大神？

为什么网吧大神不租个房子拉个网线？

为什么网吧大神不租个房子拉个网线？

网易大神社区已重新开始更新《魔兽世界》内容，原停服通知删除

网易大神社区已重新开始更新《魔兽世界》内容，原停服通知删除

知乎大神们，行测到底怎么提分啊？

知乎大神们，行测到底怎么提分啊？

OpenAI 创始大神手搓千行 C 代码训练 GPT，附 PyTorch 迁移教程

OpenAI 创始大神手搓千行 C 代码训练 GPT，附 PyTorch 迁移教程

知乎大神们，行测到底怎么提分啊？

知乎大神们，行测到底怎么提分啊？

王者荣耀：4.25正式服英雄调整分析

王者荣耀：4.25正式服英雄调整分析

王者荣耀：T0英雄遭锤！司空震成纸老虎，大乔元气丧失！

王者荣耀：T0英雄遭锤！司空震成纸老虎，大乔元气丧失！

王者荣耀：钻石局三款皮肤现身，大神代练上线，小心被虐！

王者荣耀：钻石局三款皮肤现身，大神代练上线，小心被虐！

王者荣耀：被动一删，谁将沦为辣鸡，谁又能飞上天！

王者荣耀：被动一删，谁将沦为辣鸡，谁又能飞上天！

0评论

最新
最热

还没有任何评论，你来说两句吧

热门资讯

9块9包邮到底让你损失了多少钱

9块9包邮到底让你损失了多少钱

DNF：神界装备系统大改版！4大新内容详解，大小百变怪登场

DNF：神界装备系统大改版！4大新内容详解，大小百变怪登场

DNF：可白嫖一个角色门票，史诗之路“封存券”莫乱用！注意顺序

DNF：可白嫖一个角色门票，史诗之路“封存券”莫乱用！注意顺序

杰佳JIEJIA——健康优质板材的领军品牌

杰佳JIEJIA——健康优质板材的领军品牌

3309 元：小米全能扫拖机器人 M30 Pro 京东 12.12 新低

3309 元：小米全能扫拖机器人 M30 Pro 京东 12.12 新低

ROG 2024 款幻 16 笔记本曝光：Ultra 9 185H + RTX 4090

ROG 2024 款幻 16 笔记本曝光：Ultra 9 185H + RTX 4090

江苏斯特郎电梯：打造高品质的电梯名牌

江苏斯特郎电梯：打造高品质的电梯名牌

荣耀 Magic6 系列手机开启 100 元预订：送体脂秤、180 只换不修等

荣耀 Magic6 系列手机开启 100 元预订：送体脂秤、180 只换不修等

DNF：旭旭宝宝停播！“大斌子”发文辟谣，“茜皇”三字回应

DNF：旭旭宝宝停播！“大斌子”发文辟谣，“茜皇”三字回应

恩科ENKOR音响品牌介绍，专业音箱解决方案提供商

恩科ENKOR音响品牌介绍，专业音箱解决方案提供商

玄派推出“玄熊猫”轻量化鼠标：原相 3395 + 三模连接，149 元

玄派推出“玄熊猫”轻量化鼠标：原相 3395 + 三模连接，149 元

浙江财经大学一退休教授制作“数字人替身”，继续为学生授课

浙江财经大学一退休教授制作“数字人替身”，继续为学生授课

热门晒物

热门好文

荣耀X50i+启动预售活动，首发到手价仅1599元起

荣耀X50i+启动预售活动，首发到手价仅1599元起

魅族21系列新机预热活动开启，挑战最窄下边框

魅族21系列新机预热活动开启，挑战最窄下边框

《人中之龙7外传无名之龙》首发支持DLSS 2！耕升 GeForce RTX 4060 踏雪同玩家击碎黑暗重回现实！

《人中之龙7外传无名之龙》首发支持DLSS 2！耕升 GeForce RTX 4060 踏雪同玩家击碎黑暗重回现实！

小米13迎来双11大促活动，仅需3599元即可入手

小米13迎来双11大促活动，仅需3599元即可入手

福布斯中国最具影响力商会50强评选开放报名

福布斯中国最具影响力商会50强评选开放报名

双十一，送福利啦！四季沐歌 “值”等你来

双十一，送福利啦！四季沐歌 “值”等你来

臭宝推出人民体育联名款螺蛳粉多渠道联动打开体育营销新思路

臭宝推出人民体育联名款螺蛳粉多渠道联动打开体育营销新思路

OPPO Reno11系列新机配置曝光，或搭载骁龙8+

OPPO Reno11系列新机配置曝光，或搭载骁龙8+

蔡司影像，心临其境 vivo X100系列正式发布

蔡司影像，心临其境 vivo X100系列正式发布

iQOO 12 Pro跑分成绩曝光，更多硬件配置揭晓

iQOO 12 Pro跑分成绩曝光，更多硬件配置揭晓

上汽荣威D7正式上市售12.18万起未来3年推8款新车

上汽荣威D7正式上市售12.18万起未来3年推8款新车

HELLY HANSEN推出全新H2EXPLORER系列冲锋衣羽绒服

HELLY HANSEN推出全新H2EXPLORER系列冲锋衣羽绒服