角色计数挑战

我的 最近贴文 Wikimedia Commons中风顺序项目上的提示提示Toshuo.com的Mark 假装 the relative dearth of 传统的 characters being added to the project. To this, David on Formosa 提醒 标记也有很多字符 共享 通过 the 传统的 and 简化的 character sets.

此时,我’ll插入视觉辅助工具(一定要爱上他们的维恩图!):

简体和繁体字

所有这些使我开始思考以下问题:“s” represents the characters 在 the 简化的 set not 共享 with the 传统的 set, while “t” represents the characters 在 the 传统的 set not 共享 with the 简化的 set, and “u”代表两个集合共享的字符,那么属于组的字符数是多少 s, tu, 分别?

这似乎是一个简单的问题,但它’实际上,由于多种原因,它非常棘手。

首先,存在的汉字总数因来源而异,并且在很大程度上取决于要在总数中包含多少非标准变体。您可以合理地确定总数少于50,000,但是’当大多数中国人经常使用少于5000个字符时,它仍然是一个非常可笑的数字。出于比较的基本目的,将您的字符集限制为一定数量的常用字符是有道理的,但是哪个字符集呢?一个来自中国?来自台湾?从香港来?来自Unicode吗?

其次,您可能会想 s = t, because 简化的 characters were “simplified from” 传统的 characters. This isn’t true, however, because 在 many cases multiple 传统的 forms were conflated 在 to one 简化的 form. To give a very common example, 传统的 characters , 都写 在 简化的. So adding these three characters adds 1 to u, 2 to t,和0到 s。有很多类似的案例,所以很明显 t 将大大大于 s。但是用多少个字符呢?

I’d无论使用什么字符限制,都非常有兴趣看到此问题的具体答案。我也想知道 s, tu 随着字符限制的增加而变化,并且包括越来越多的低频字符。

如果你’ve got an answer, I’d很高兴收到您的来信!

分享

约翰·帕斯登

约翰是上海的语言学家和企业家, 全集学习.

评论

  1. I’ve对此进行了一些分析,结果如下(包括该工具):

    http://www.hemiola.com/info.html

    我没有’尽量不要把它画出来,但是我现在可能会’ve been 在 spired.

  2. What about when we factor 在 Japanese characters as well? How many characters are common to all 3 sets? How many do Japanese fit with 简化的, how many fit 在 to the 传统的 set, and how many are Japanese creations?

  3. dmh,

    是的,日语字符问题又是一团糟…我试图使问题简单。 --

    维基百科有 一个很好的并发症 日本汉字引起了这个问题。

  4. 詹斯

    那’真的很酷!因此,如果我正确理解您的结果,您不会 ’t目前区分“t” and “u”团体,对吗?

  5. unihan数据库可以被视为合理确定的汉字列表。尽管会不断添加新字符,但如果它们’不在那里’你赢了的好机会’无法在您的计算机上显示/输入它们(即使是相对于Unicode定义了GB 18030标准)。

    考虑到这一警告,可从unicode.org免费下载的Unihan.txt数据文件包含有关每个不同的CJK unicode代码点的各种信息,如果字符具有任何简化的变体,则包括(如相关)值kSimplifiedVariant;如果字符具有任何简化的变体,则包括kTraditionalVariant任何传统变体(在此字段中还指定了给定字符的多个变体)。

    It’s then a simple matter of counting the characters with variants, and then removing any common codepoints (e.g. those characters that are 都 a 传统的 character 在 their own right, plus a 简化的 version of another 传统的 character).
    这使我们:

    2667 characters that have a 简化的 variant (e.g. group t)
    2586 characters that have a 传统的 variant (e.g. group s)

    前段时间有一个有趣的话题 中国论坛 讨论了如果您已经知道一个字符集,但又希望能够使用另一个字符集,则需要学习的字符数。不包括遵循一致模式(说=说等)的简化,似乎有 536 两组之间的字符明显不同。

  6. 艾姆龙

    谢谢回复!所以对于你u组’re saying it’只是Unihan列表总数,减去2667,减去2586?

    至于其他讨论,我认为 这个清单 是有用的。

  7. I’d say I’ve only described s (2140), u (4623), and s + u (6763). But I haven’t looked at t or ++.

    在我对事情的简单化处理中,我’m只是让GB2312的大小代表“s+u”(6763),我所谓的主要Big5代表“t+u”(5401)。我意识到’并不完全精确“不太正确”目前),但我’我只是想从实际的角度来看事情。除了一些咒骂之类的东西,我’m guessing you’d很难找到母语为母语的人,他发现标准字符集在现代语言表达中缺乏明显的方式。

    我还是’t协调了诸如为何/如何GB2312具有6763个字符而主要的Big5集仅具有5401个字符的问题。

  8. I still have some files I extracted from Unihan.txt some time ago, and they give me around 80 cases of several 传统的 characters being 简化的 在 to one.

    但是,数据不是很准确。例如,他们经常不’t say if a 简化的 character was already used 在 传统的 (like 干 在 your example, see http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=%E5%B9%B2 ),但有时会这样做(例如台: http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=%E5%8F%B0 ). Some characters my 新华字典 says are non-standard variants are considered several 传统的 forms of the same 简化的 character (like 鶿 and 鷀 for 鹚).

    While I was doing that, I also noticed they have 7 occurences of a 传统的 character having several simplification :

    • 沈:沉,渖
    • 画:划,画
    • 钟:钟,锺
    • 腼:腼,䩄
    • 余:余,剩余
    • 鲶:鲇,鲶
    • 碱:硷,碱

    根据我的阅读,在这七个中,只有余:余,在简化图表中似乎是合理的(传统字符中已经使用了余,可能有一些歧义,因此在这种情况下应使用多余)。其他的看起来更像是同义词(鲇,鲶)之间的混淆或特定简化和通用规则(沉,渖)的应用。

  9. 不幸的是’变得棘手的地方。 Unihan数据库还包含各种兼容性代码点和其他变体(例如说和说)的代码点。简化/传统的检查非常快速,简单。为了获得更准确的整体数字,同时考虑到其他各种变体(请参见 这里 (有关更多信息),则需要更多时间进行操作。

    然后,您还必须怀疑Unihan数据库包含超过71,000个唯一代码点的实用性–其中大多数永远不会在现实生活中使用。它’非常好,很高兴地说,只有3%的字符是简体/繁体字符所独有的,所以您不必’不必担心,但是就原始问题(Wikimedia Commons)而言,这并不那么有意义,因为大多数那些没有简化/传统变体的字符都不会被看到/使用。

    你什么’d真正想做的是查看最频繁的X千个字符,并能够计算出每个百分比。

    那么你’d列出频率数据列表(由 俊达 很好,但请再次注意现代文本与想像文本与古典文本的区别),然后列出‘simplified’, ‘traditional’ and ‘both’您可以从Unihan列表中生成列表,然后过滤这些列表中的前2,000 / 4,000 / 6,000个字符等。

    如果您知道自己所要做的,这并不是一项艰巨的任务’确实在做,但我做得并不简单’目前没有时间这样做。

  10. @leyan, hmm yes, I checked for 台, found it to be true and so assumed it would be like that for all of them when creating my totals (it greatly 简化的 the work required). As such, the figures I listed will be slightly off.

  11. 我恰巧在笔记本电脑上的mysql数据库中有一个Unihan的解析副本(以防万一!),所以我决定对其进行破解。

    For 传统的 characters, I looked at the characters 在 Unihan that had a Big-5 在 dex. For 简化的, I looked at the ones with a GB 2312-80 在 dex. Then I 在 tersected the sets to find the overlap, and summed the remaining. What I got was:

    Big5:13063
    GB:6763
    相交:4383
    合计:15443

    我认为,如果某个字符既不在GB中也不在Big-5中,则它不是特别有用(即有限的数字支持),因此它们’d be good stand-ins.

  12. @John B. 那’将Big5的数字与kSimplifiedVariant的数字进行比较时,它的确有很大的差异。

    也就是说,根据这些数字,Big5–相交= t = 8,680,而使用kSimplifiedVariant则得出2667。

  13. 我的 guess is that the more obscure a character is, the less likely it is to have had a 简化的 form created. So, my naive guess would be that t 远远大于 s 最常用的几千个字符,但是随着越来越多的晦涩字符被添加,这两个集合将以大约相同的速度增长。

    对了我’ve开始为Wikimedia Commons笔画订单项目做出贡献。列出的传统字符很少的一个原因是,每个字符集需要不同的字体。因此,角色的简化动画可以’将其复制并用于传统动画。

  14. What about T/S characters that are essentially the same, but have slightly different (but not 简化的) written forms? I’我特别想到兑现/兑现。这仍然算作“simplification?”

    另外,John B,对于其他挑战,请尝试重做,同时考虑到43种新的简化方法!

  15. @brendan,不,不’t。我上面链接到的有关变体的页面对此进行了详细说明。

  16. 布伦丹

    是的,您完全必须分别计算这些!我最喜欢的例子是没/没和别/别。

  17. 只是为了澄清我的上述陈述,它并没有’对于Unihan数据库中的数据来说,这意味着。那么,是否应将它们实际上视为简化问题总是有待商debate(但我认为我在这方面支持Unihan)。

  18. 其实我’我错了。 Unihan至少在兑付,兑兑,没/没和别/别之间将它们区分为T / S

  19. 致约翰:“谢谢回复!那么对于u组,您是说这是Unihan列表总数,减去2667,减去2586?”

    不,不会’由于Unihan数据库中的简化信息是由Wenlin提供的,因此仅与Wenlin中包含的字符有关。通用规则可以简化Unicode上的7万多个字符,例如訁->讠 or 貝->贝) but don’t出现在此统计信息中。我不’我不太了解这个基础,但是如果其中有很多,我不会感到惊讶“可以从非常罕见的传统字符中自动简化”甚至没有将其转换为Unicode。

    但是,这不会改变t-s的值,这是恕我直言的有趣部分

  20. 我想出了:
    s=2276
    u=4487
    t=2318

    如果你 take the Gb standard 6763 简化的 characters and use Wenlin to converse them to 传统的 you find that 4487 stay unchanged (u) and 2276 are changed (s). 36 of these 2276 change to more than one character. 如果你 count them you get 2318 (t).

发表评论