现实看待阅读中文的挑战

以下是由中国剪报的读者Julian Suddaby撰写的客座文章。在此之后,我发表了一些自己的评论。

警告: 如果你’re a member of the “中文超级好用”派系,本文可能会使您有点恼火,但请务必通读至最后!


有多少个字符?

朱利安·苏达比(Julian Suddaby),2014年2月13日

介绍

我问Google“我需要学习多少个汉字”,我发现针对语言学家的最佳网站 俊大的网站 and used his data to argue that 3,500 characters should be enough for most people, being that you’ll 知道 around 99.5% of the characters 在 general circulation. [1] 真的够了吗?

好吧,如果您到了这一点,那么恭喜您。这是一项成就。但是您可能还不想停止累积字符。事实上,伤心地说,3500你甚至无法读取骏达的名字,在于笪是一路下行频率为#5231。 [2] 那么,您需要学习多少?好吧,这取决于您应该问自己一个问题: 您到底想读什么?

一张报纸

学生们经常想看中文报纸。的 南方周刊 南方周末是一个受欢迎的选择,在过去的30天中,我选取了十篇最受欢迎的文章,并通过计算机程序对它们进行了检查,并对照Jun Da最常用的3500个字符进行了检查。我认为结果对于中国学生来说是相当令人鼓舞的:如果您知道3500,那么在那10篇文章的过程中,您只会遇到44个新字符,而在其中的29个中,您只会看到一次。可能只是根据上下文进行猜测并继续前进。但是您可能需要查找“甄别”,这是一篇文章的主题的匿名姓氏(因此出现了35次);闰,以浙江公司的名义使用,该公司似乎在其后院掩埋了五百吨有毒化学物质(七次露面);和驿,以涉嫌在线安全漏洞的公司的名义使用(也有7次出庭)。 [3]

因此,尽管您可能还不应该扔掉词典,但尝试阅读报纸似乎并不会令人沮丧。

一本儿童读物

儿童小说是语言学生阅读材料的另一种流行选择。沉士玺是一位备受推崇的儿童小说家, al狼和狼 最近由Helen Wang翻译成英语。我对沉的另一本小说《鸟奴》(上称“鸟奴”)进行了分析。从字符角度来看,这比报纸上的文章要困难得多,因为有211个字符不在前3500个字符之内。其中有90个被多次使用。正如您所希望的那样,与动物有关的词汇“动物小说之王”沉在这里是一个特殊的问题,如果您不抬头,您可能会非常困惑鹩,用了280遍,四次;公鸡,使用了36次;和獾,使用了22次。 [4]

这本小说长约240页,因此您应该期望找到在大多数页面上都不认识的角色。

五侠小说

金庸的小说仍然是公司的最爱。而不是从四卷和1300页开始 射雕英雄传 《射雕英雄传》,学生也许可以尝试 致命的秘密《连城诀》,只有四百页左右。在这四百页中,您会遇到前3600个字符以外的296个字符。最常用的是主角的名字(水笙,水岱和万圭),但还有很多新字符常见名词和动词也使用了多次。 [5]

在逐页的基础上,您应该比上面的《沉世溪》小说认识更多的人物。但是,就字符总数而言, 致命的秘密 更具挑战性。

现代经典

鲁迅的 呼吁武器 《呐喊》尽管收集了他在中国现代文学白话化的早期阶段所写的故事,但至少在基本字符识别方面,应该比以上两部小说难得多。共有230个看不见的字符,其中闰(记得是从上方来吗?),珂(用在名字中)和锵(声音)排在前三位。 [6]

结论

即使通过这种非常粗略的分析,看来,如果您的目标是在没有字典的情况下舒适地阅读中文小说,您将需要识别3500个以上的字符。中国作家经常在四,五千个频率范围内很好地使用字符。

因此,尽管达到3500个值得庆祝,但我不会停止尝试获取角色。继续阅读和检查字典,如果发现有帮助的话,不要放弃记忆/重复空格。 [7] 长期以来,您仍然会遇到新角色……。 [8]

  1. See http://lingua.mtsu.edu/chinese-computing/statistics/index.html.
  2. àDà(在此姓,但意思是“草丛或竹子的粗糙垫子”,旦丹提供语音)。在这里和以后,我都使用Wenlin作为我的字符修饰的主要参考。
  3. 甄Zhēn(这里的姓氏,但最初的意思是“做陶器”,由垔和瓦组成,但没有语音提示),闰rùn(在此使用,但意为“插层”);更为常见的润有着相同的发音),驿yì(与站一起使用,意为“邮政/快递站”;右侧是注音,如译所示)。
  4. 鹩liáo(“ w”,用左侧提供语音),喙huì(“口鼻;嘴;喙”,具有口部和彖部首的语义;没有语音提示),獾huān(“ bad”,具有右侧注音)。
  5. 笙shēng(“芦苇管乐器”,底部是注音),岱大(“ taishan mountain”,顶部是注音),guiguī(“玉器”,发音为cf挂或桂)。
  6. 珂(“玉石”,右侧为注音),锵qiāng(“ lang”,右侧为注音)。
  7. For the more technologically-oriented student, another option may be available: thanks to the 在 creasing availability of texts 在 machine-readable formats students could run their own frequency analysis on a text they wanted to read and pre-learn characters they don’t already 知道. It’s a pity there don’t seem to be any easy-to-use programs or websites that offer this functionality.
  8. 还应该注意的是,单字符识别只是阅读中文的一部分,它本身并不是衡量阅读水平的好方法。也就是说,相对容易地测量字符识别和频率可能证明其有限地用作汉语学习者的自我诊断和动机工具。

以下是我的回复:

有趣!这种帮助说明了分级读者的重要性。 (你见过 普通话同伴 ?)

While I 知道 your 在 tent is to SEEK THE TRUTH, the overall tone of the 文章 is, unfortunately, a little discouraging for struggling learners. For me, this totally highlights the need for materials that give the learner a sense of 成就 达到300、500、1000个字符,而不是不停地说:“仍然不够好。”

他的回应:

您’非常正确,我想我太死板了 实事求是 在一块!我完全同意您关于避免挫败感的需求“还不够好”感觉和信息渗透到大多数汉语教学材料中(我如何记得当我 高级 教科书 仍然 每个短文本需要五十个以上的新词汇!)。那里’迫切需要更多有限字符/词汇范围的优质阅读材料,而且您的分级阅读器看起来很棒。

分享

约翰·帕斯登

约翰是上海的语言学家和企业家, 全集学习.

评论

  1. I’m not sure I’ve破解了1000个。当然,不上课学习是很困难的。希望我能记得我来自中国的分级读者–它们非常适合增强词汇和句子模式。希望我能在台湾找到这些。

  2. “thanks to the 在 creasing availability of texts 在 machine-readable formats students could run their own frequency analysis on a text they wanted to read and pre-learn characters they don’t already 知道. It’s a pity there don’t seem to be any easy-to-use programs or websites that offer this functionality.”

    中文单词提取器可以帮助您做到这一点。

    http://www.zhtoolkit.com/posts/2011/09/new-software-chinese-word-extractor/#more-292

    It’一个开源程序,可在线和离线使用。

  3. Graham Bond 说: 2014年4月4日,下午6:18

    讨论字符数量不’就更广泛的主题而言,对我而言真的很有意义‘learning Chinese’。我经常遇到我经常接触的角色(主要来自基于SRS的抽认卡作品)。我确切地知道字符的发音(或可能的发音范围),并且可能列出至少两种不同的潜在英语翻译。然而,当在文本或语音中遇到该字符时,我可能会完全被该角色为意义做出的贡献完全傻眼了。此处存在过分依赖SRS的危险(并且暗示过分依赖于SRS)‘numbers’).

    为了什么’值得维护的是,我每天维护的抽认卡套装包含大约8,000张个人卡片。这些字符分别是一个和八个字符(平均大约2.5个或3个字符,’d猜测),这意味着我的抽认卡纸牌中轻松有超过20,000个独立字符。显然,很多很多重复–这本身就说明了一个事实,即当同一个字符以不同的方式并置时,含义通常会急剧变化–虽然我想我有看到和使用大约3,000个不同字符的经验。即使是现在,也可以阅读报纸和小说(至少我尝试这样做‘a bit’即使每天不用字典就能理解大多数事情,仍然是一个挑战。

    数字真的很棒’一切。如果想要了解复杂的文本,可能需要这种驴工作,但它仍然只是一种‘first step’ and, even then (as 约翰 在 timates), only one of several different potential 第一步s. Rather than racking up big figures, what matters is being aware of how characters work within different collocations and, then, how those collocations operate within a variety of contexts.

    简而言之,中文很难,但这’s为什么我们这样做,对吗?

  4. 你不’不要停止学习汉字或中文。您只是一直坚持不懈地努力,看看死前能走多远。

    • Adam Stout 说: 2014年11月13日晚上9:21

      我希望有一个“like”按钮供您评论。令人沮丧和愤世嫉俗,但幽默而真实,足以使我发笑。谢谢!

  5. 我认为问题的一部分在于定义当我们说我们时的意思“know” a character —就此而言,我们的意思是“reading.”有许多字符本身很少见,但在上下文中或多或少可以识别;当它们出现在上下文中时,还有其他一些名称(例如context或甄)会被清楚地标记为名称。如果有人’我的目标是广泛阅读’跳过这些完全可以:“当联系时,[BLOB]先生说….”

    当然,使用Pleco,Wenlin和Peraperakun等工具,发音仅需移至鼠标或轻按即可。个人名字很难听,但好消息是,这种懒惰的方法效果很好:学习发音,或者至少迅速查找一下,然后忘记含义。 (顺便说一句,垔在甄选中是语音的。诚然,这并不是最有用的线索。)

    基本上,我认为该方法的相对难易程度最终将取决于学习者’s focus. If you focus on the characters, and on 知道ing the pronunciation and meaning of every single character, you’将会很难。如果您专注于单词以及单词出现在句子的一般含义上,’将会有一个轻松得多的时间。

  6. 学习者(任何事物的学习者,不仅是语言学习者)需要理解的一件事是,大脑在效率上起作用–也就是说,它只记住需要的东西。语言学习者之间的普遍共识是,必要性往往决定学习什么和丢弃什么。

    我目前正在阅读和收听《我的青春谁做主》这本书。它基于几年前的热门电视节目。果然,有很多词汇表,惯用短语和语法要点让我感到困惑。但是我让他们走了。我了解了故事的要旨,所以我不知道’请勿打扰任何事物(部分原因是由于熟悉电视节目)。但是关于这本书的一个要点是:尽管这本书是为母语人士编写的,但我’我还没有遇到一个我不知道的角色’t识别(我在3500范围内)。

  7. 这是一个荒谬的帖子,也是一种看待语言学习的荒谬方式。

    The exact same thing happens to native speakers, 在 any 语言 ! Who cares who many words or characters or chengyu or whatever you 知道? It’s not important.

    如果我明天拿起任何经典的英国文学作品并开始阅读,将会有很多不熟悉的单词,但是我很可能不会’不要注意到他们,因为跳过我们不说的话’从小就知道这是一种根深蒂固的习惯。正如博卡内所说,您只是以?先生的身份阅读。正是因为这个原因,英语中有太多单词被误读–从未听过它的人说过要读一本书,然后猜一猜,最后就是错了。有一天,一个知道的人会纠正它们,所以就这样。

    我个人认为’s a waste of time to sit there and try and find a magic formula for how many characters and/or words you need to 知道 to read x text, just do what you do 在 your native 语言 –挑选一本有趣的书,然后开始阅读。如果它’太难了,放弃并找到一个简单的方法。如果也这样做 ’s too boring.

    更少的分析时间,更多的阅读时间!

  8. 安德鲁·科克汉姆(Andrew Cockerham)说: 2014年4月5日,晚上11:09

    好帖子。我刚下载“盲国”来自国语伴侣。非常感谢您创建了如此有用的资源!一世’我也是一名开发人员,并基于上述讨论很想谈论一些改进应用程序的想法。很想聊天…。最好如何与您联系约翰?

  9. If anything I find this encouraging about the 3500 character statistic. Of the low frequency of usage characters you displayed the vast majority were for names, and therefore not an impediment to comprehension of the overall piece. But of course, 知道ing characters is just the start, just becuase you recognise teh characters 金庸 is using doesn’t mean you’就能理解连城诀。

  10. Adam Stout 说: 2014年11月13日晚上9:15

    Anyone have good resources for gauging the number of characters you actually 知道? Tests, etc.? I have tried clavisinica.com but wonder about its accuracy and would 喜欢 to try something else for comparison.

    PS –普通话同伴分级读者是我最好的选择’我曾经读过中文!

  11. 你好朱利安,

    非常感谢您的分析和出色的文章。

    我的2015年使命是能够在2015年12月31日之前阅读中文报纸。

    我20年前在大学学习中文,并且在80年代末住了三年,主要在香港。然后,我的重点是讲话。现在,我想学习阅读。
    到目前为止,大约2个月内,不到32小时,我就学会了最重要的950个字符,因此我开始阅读第一本中文书籍。我在这里写了关于我的经历的博客: //ppalme.wordpress.com/2015/01/08/the-fastest-way-to-learn-to-read-chinese/

    您分析了《南方周末》,您的结果似乎令人鼓舞。在我看来,《南方周末》是相当成熟的报纸。

    中国政府将基本读写能力定义为从2000个字符开始。这些人可以阅读哪种报纸?尽管我认为今年可以再学习2500个字符,但我仍在寻找一种更容易阅读的报纸作为我的工作。您会建议哪一个?

    尽管我很好奇,您使用哪种类型的工具根据3500个最常用的字符来分析《南方每周》的十篇最重要的文章。

    我也在寻找实现与我类似任务的人。

    谢谢。

    最好的祝福,

    彼得

  12. […]是您可能会发现有趣的几篇很棒的文章:现实阅读中文的挑战-学习汉语激进分子的新方法–对Western很有帮助[…]

  13. 关于孩子们的奇妙事情’的书是,如果您碰到像鹩这样的角色,’ll旁边还有它的发音,甚至可能还有图片。至少,你’就能捡到它’是某种鸟,你’ll 知道 how to pronounce it. Incidentally, that’我对这个词的理解正是我所处的位置’的英文翻译,“wren”。那是什么鸟?毫无头绪,但我小时候就知道了。

  14. 现实的说法: 2017年5月31日晚上8:59
  15. […]是您可能会发现有趣的几篇很棒的文章:现实阅读中文的挑战-学习汉语激进分子的新方法–对Western很有帮助[…]

  16. […],以便您能流利地阅读用中文写成的书籍或文章中扔给您的所有内容的99.5%[…]

发表评论