Error in user YAML: (<unknown>): found a tab character that violate indentation while scanning a plain scalar at line 3 column 3
---
- oeasy Python 0416
- 这是 oeasy 系统化 Python 教程,从基础一步步讲,扎实、完整、不跳步。愿意花时间学,就能真正学会。
- 本教程同步发布在:
- 个人网站: `https://oeasy.org`
- 蓝桥云课: `https://www.lanqiao.cn/courses/3584`
- GitHub: `https://github.com/overmind1980/oeasy-python-tutorial`
- Gitee: `https://gitee.com/overmind1980/oeasypython`
---- 上次回顾了 日韩各有 编码格式
- 日本
- 有假名
- 五十音
- 一字节 可以勉强放下
- 有日本汉字
- 字符数量超过20000+
- 有假名
- 韩国
- 有谚文
- 数量超过500
- 一个字节 放不下
- 有朝鲜汉字
- 字符数量超过20000+
- 有谚文
- 越南
- 有字喃
- 有汉字表意
- 也有汉字表音
- 字符数量 超3万
- 有字喃
- 日本
- 作为 汉字源头的中国
- 是 如何对汉字
编码的呢?🤔
- 是 如何对汉字
- 汉字
- 起源于甲骨文
- 是 世界上唯一还在使用的
- 象形文字
- 真的很不容易!
- 写的本意 就是 画
- 写实
- 写意
- 写生
- 最初的 象形字
- 是 画出来的
- 以象形为基础
- 指事
- 会意
- 形声
- 转注
- 假借
- 字的结构是什么呢?
- 上下
- 左右
- 内外
- 字型相当复杂
- 笔画也千姿百态
- 笔画
- 也比较复杂
- 永字八法
- 运笔藏锋
- 很有讲究
- 相对于 英文的26个字母
- 中文的20000+字符曾经影响 文化传播
- 这么多单词
- 没有什么规律
- 很难发现 他们之间的关系
- 中文 相对简单
- 一看就知道 这是什么羊
| 中文 | 英文 |
|---|---|
| 牛 | ox |
| 公牛 | bull |
| 母牛 | cow |
| 牛肉 | beaf |
- 对比明显
- 牛肉 = 牛 + 肉
- beef ≠ ox + meat
| 中文 | 英文 |
|---|---|
| 羊 | sheep |
| 羊毛 | wool |
| 羊群 | Flock |
| 羊肉 | mutton |
- 英文 单词之间
- 看不到关联
- 英文单词构成
- 只有 先后次序 一种方式
- 由于汉字 是画面
- 可以有 各种 构图 配合
- 就形成了 新的汉字
- 从字型结构
- 可以大致判断词义
- 这些特性 在数字化时代
- 会有什么帮助吗?
- 中文文字 和 对应的 字型
- 如何才能数字化呢?
- 中国大陆地区最早使用 GB/T 2312-1980
- 当时参考了
- 比我们先进的 日本JIS 字符集
- 1980 年 指定的国标 (GuoBiao)
- 1981 年 5 月 1 日开始使用
- 当时参考了
- GB2312 编码
- 共收录汉字 6763 个
- 这么多字怎么排呢?
- 01-09 区为特殊符号
- 先把ascii的128个字符让出去
- 然后 再留有些 制表符
- 还留了 相当多的空余
- 16-55 区
- 为一级汉字
- 3755 个
- 按拼音排序
- 56-87 区
- 为二级汉字
- 3008 个
- 按部首/笔画排序
- 出了汉字之外,还收录了
- 拉丁字母
- 希腊字母
- 日文平假名及片假名字母
- 俄语西里尔字母
- 面面俱到
- 可是这gb2312
- 具体是 如何编解码的 呢?🤔
- 如果是0-127以内的ascii字符
- 标志位为0
- 1个字节存储
- 如果是ascii以外的字符
- 标志位为1
- 2个字节存储
- 编解码方法
一致就可以- 解铃还须
系铃人
- 解铃还须
- 同时用 gb2312 编解码
- 是没有问题的
- 这篇 80年制定标准的文档
- 当时 怎么 制作出来的呢??
- 虽然 计算机
- 在当时 还 没有普及
- 但是 出版行业
- 已经 工业化 了
- 印刷厂
- 使用 铅活字
- 进行 排版
- 职业分工 明确
- 铸字工
- 拼版工
- 还有拣字工
- 印刷家谱
- 相对简单
- 从 一个大盒子 选就够了
- 字 再多些
- 要用 转轮排字盘
- 字 再多些呢?
- 大 印刷厂
- 字模 特别多
- 甚至 要放
- 好 几面墙
- 好 几张桌子
- 这 曾被
- 使用26个字母的
- 西方文明 嘲讽
- 出书确实不易
- 捡好了 字
- 排好了 版
- 先 打个 样
- 再来 校对
- 再浇 铅板
- 最后 印刷
- 以后 再版
- 最初的
- 书籍
- 杂志
- 报纸
- 试卷
- 都是这样 印刷出来 的
- 打印技术
- 也在 不断演化
- 从 轮转排字盘
- 到 谢卫楼 发明的 中文打字机
- 再到 舒震东
- 在前人的研究基础上经过创新
- 得到的 舒式打字机
- 中文字符 的数量
- 是 一个难关
- 直到
- 照相技术 的 发展
- 使用 照片底片 进行排版
- 也面临检字的工作
- 手工粘贴照片
- 照片排版技术本身也在迭代
- 用照片排版的方式
- 制作了这样一个汉字编码的文档
- 使用 激光 扫描照片
- 精度更高
- 每一个小字型都是一个照片
- 根据汉字内码找到汉字对应的激光照片
- 然后再把激光照片像活字一样排版
- 这就是激光照排技术
- 王选
- 感谢王选与陈堃銶前辈的技艺
- 激光照排技术 可以
- 印刷中文书籍 和 报纸 了
- 激光照排 中的 激光
- 最早 被翻译为 镭射
- 原本laser 被翻译为 镭射
- 音译
- 后来 改为 激光
- 我们一下子就能看懂 词汇的含义
- 类似的还有
- remote sensing*遥感
- interplanetary flight 航天
- 这些词汇 翻译来自于 钱学森前辈
- 留住了 汉字的味道
- 简体和繁体的汉字
- 字符数量都超级大
- 感谢王选和陈堃銶等前辈发明了激光照排技术
- 中文排版从此使用上了gb2312编码
- 标准定了立刻就能用起来么?
- 我们下次再说!👋
- 本文来自 oeasy Python 系统教程。
- 想完整、扎实学 Python,
- 搜索 oeasy 即可。

































