构建一个极简语言学习系统

1 语言学习元认知

注：本文的很多内容参考自： https://1000h.org/intro.html，特此感谢

1.1 学习一门语言的目的到底是什么？

如果要人们回答这个问题，最普遍的答案会基于实用主义的交流 —— 学习一门语言的意义在于使用。

因此，英语在需求程度上最强烈，毕竟人类的绝大多数知识与智慧就是用英语记录并传播的。其他语言的需求程序视这门语言在世界上的地位而定。

然而，如果我们换一个角度 ——

掌握并不断提高自然语言使用能力，是最佳的健脑方式 —— 完全没必要在这个陈述之后再附加上 “之一”，因为它就是最佳健脑方式。自然语言是人类终其一生可以遇到的最复杂最系统的知识，一切其它的知识技能都建立在其基础之上，无论是学也好还是练也罢，没有止境。也因此，所有人都可以，事实上也应该，终其一生去培养并发展对自然语言的驾驭能力。

—— https://1000h.org/intro.html

—— 如果想了解更多关于「健脑」的内容，可以点击查看原文，在此不再延展。

1.2 失败的语言教育系统

不得不说，已有的语言教育系统是失败的。大多数人从小就开始学英语，十几年的青春都在努力达成「掌握英语」这个目标，但是最终效果不佳。

一部分人会把原因归结于自己 —— 我没有语言学习的天分；另一部分人会把原因归结于客观条件 —— 没有沉浸式的语言环境，或者，没有外教能陪我联系……

然而，如果我们观察一下小朋友的语言学习，会发现上述的理由都站不住脚。小朋友从 18 个月左右开始牙牙学语，前后经过差不多 30 ～ 36 个月左右达成吐字清晰，在 6 岁前后已经精通一门语言。

曾经，每个人都的确是天才，却最终大多都被教育成了笨蛋 —— 相信我，人傻都是被教出来的。

https://1000h.org/training-tasks/ground.html#_4-%E4%BB%BB%E5%8A%A1%E5%B9%B6%E4%B8%8D%E9%AB%98%E7%BA%A7

所以，我们想要做的事情简单明了 ——

承认现有的面向成人的语言教育系统是失败的，抛弃它，想想作为语言学习天才的小朋友们是怎样进行语言学习的，设计一个遵循这种学习方法的 App。

1.3 只有模仿

学习语言的最有效的方法只有模仿。小朋友们不会先读一本词汇书、再读一本语法书、然后再找一本书专门讲怎么阅读理解……

唯一的方法论就是 简单粗暴的模仿 。父母和他说一句「你好」，然后他模仿之后便掌握了一句「你好」。随着时间推移，掌握的句子越来越多……

所以，我们为何不设计这样一个语言学习 App，它的最基础功能就是模仿和评分？

粤语跟读小游戏 Demo ：

粤语跟读小游戏 Demo

由于我们现在已经有了一个现成的粤语语料库，所以，我们计划用「粤语」作为这个理念的第一个实验标的。

用户将可以在所有语料集中选择他喜欢的语料集作为学习资料。例如，需要用于日常交流的学习者选择「粤语万句多用途场景语料集」，而想要学习粤语的小朋友选择「小猪佩奇粤语版」。学习资料的更新将和语料库本身的数据更新保持同步。

学校里或者市面上的口语教材之所以没用，是因为它们都不是个性化的。说实话，这也是没办法的事情，既然是大众教材或者大众教育，那么就必然只能假定大家都是一样的 —— 在这个隐含的假定之下，不可能存在什么为你定制的个性化教材。

通用教材，尤其是口语书的一个隐患在于，它想无所不包，它什么都想教你，毕竟，如果一本口语书竟然并不全面，那么就根本卖不出去 —— 出发点是好的，可效果却是注定没有的 —— 因为实际上你需要的并不是什么都会，而是 “我会的我想的，我就能说”。

举个例子，一个以 “星巴克” 为场景的对话，若是追求完整的话，感觉上我们所需要学的东西实在是太多了 —— 很奇怪的是，我们在咖啡馆里几乎从来不说 coffee 这个词 —— 拿铁、美式咖啡、焦糖玛奇朵、卡布奇诺、脱脂牛奶，低因，糖浆，榛果味糖浆，到底要几泵糖浆…… 可是，对我来说，永远是 latte，hot，medium，然后呢？然后就没了，真的没了。人家看我自己一个人，又不是外卖的装扮，通常也不会问几杯；如果人家竟然真的问了，我可能并不需要说话，只需要伸出一个手指头就行了……

这就是为什么天下没有什么口语书的确适合你的根本原因 —— 每个人都太不一样了，每个人的感受不同，想法不同，经历不一样，表达方式不一样，哪儿哪儿都不一样，否则，为什么要交流呢？结果呢？教科书里十句里只有一句我自己用的上的，我想说的十句里有九句教科书里没有…… 这能有效吗？我们必须想办法定制属于我们自己的个性化口语书……

—— https://1000h.org/training-tasks/revolution.html#_3-8-%E9%A1%B6%E7%BA%A7%E5%A4%96%E6%95%99

如果进一步延伸，在过去，所有的教材都是 「缺乏个性化定制」 的通用教材。

我是港片爱好者，但市面上不会有一本以「无间道三部曲」为素材的粤语教材；
我想成为游戏开发者，但编程教材里并没有「游戏案例」；
……

现在 AI 已然突破了奇点，我们或许可以来点不一样的。

2.2 AI 时代，人人都可以是超级生产者

每个人其实都是特定领域的专家，只要知道了「那个领域」是什么。

例如，我是周星驰电影的超级粉丝，那么编写一份「基于周星驰电影的粤语口语宝典」，我可能会比语言学专家更有优势；

例如，我是资深火锅爱好者，那么编写一份「中国火锅地图」，我可能会比其他美食博主更胜一筹……

然而，即使是专家，要最终产出作品，还是有很多具体的细节阻碍。依然是「基于周星驰电影的粤语口语宝典」这个例子，如果我从零开始，那么从电影里剪辑出语料会是我首先面临的工作量。

所以，在这个 App 里，我们是否可以从「最简可行路径」开始？

做一个「创作者」是高门槛的，但是否可以先做一个「策展人」？

生产者
  |-------+
  ↓       ↓
创作者   策展人

什么是创作者？创作者即是数据的生产者，也是数据的组织者；什么又是策展人？策展人是数据的组织者，但不一定是数据的生产者。

还是「基于周星驰电影的粤语口语宝典」的例子，如果语料库中本身已经存在了「周星驰电影语料集」的话，那么策展人的工作量会简化为「挑选合适的语料组成集合」。

创作者还是策展人？

在 1 语言学习元认知 一节中，最后阐述了我们会在这个 App 中开启一场面向 学习者 的实验 —— 让大家在学习一事上找回很久以前的自己。

关于 2 人人都能创作教材 这一节，我们同样也试图开启一场实验，但是这场实验面向的是 生产者 —— 让大家用「策展」这一方法创作个性化教材。

3 功能实现

[✓] 可用 & 简洁的跟读语料集实现

[✓] 来自 DimSum Search System 的任意语料的跟读功能

[ ] 创作者通过「策展」的方式创建教材

[ ] 构建「粤语学习者」用户社区

[ ] 在社区组织跟读活动

构建一个极简语言学习系统

1 语言学习元认知

1.1 学习一门语言的目的到底是什么？

1.2 失败的语言教育系统

1.3 只有模仿

1.4 分享功能

1.5 启动实验！

2 人人都能创作教材

2.1 只有通用教材的过去

2.2 AI 时代，人人都可以是超级生产者

3 功能实现