415 lines (284 loc) · 7.76 KB

Error in user YAML: (<unknown>): found a tab character that violate indentation while scanning a plain scalar at line 3 column 3

---
- oeasy Python 0416
- 这是 oeasy 系统化 Python 教程，从基础一步步讲，扎实、完整、不跳步。愿意花时间学，就能真正学会。
- 本教程同步发布在： 
	- 个人网站： `https://oeasy.org` 
	- 蓝桥云课： `https://www.lanqiao.cn/courses/3584` 
	- GitHub： `https://github.com/overmind1980/oeasy-python-tutorial` 
	- Gitee： `https://gitee.com/overmind1980/oeasypython` 
---

中文编码GB2312

回忆上次内容

上次回顾了日韩各有编码格式
- 日本
  - 有假名
    - 五十音
    - 一字节可以勉强放下
  - 有日本汉字
    - 字符数量超过20000+
- 韩国
  - 有谚文
    - 数量超过500
    - 一个字节放不下
  - 有朝鲜汉字
    - 字符数量超过20000+
- 越南
  - 有字喃
    - 有汉字表意
    - 也有汉字表音
    - 字符数量超3万

作为汉字源头的中国
- 是如何对汉字 编码 的呢？🤔

汉字

汉字
- 起源于甲骨文
- 是世界上唯一还在使用的
  - 象形文字
- 真的很不容易！

写的本意就是画
- 写实
- 写意
- 写生
最初的象形字
- 是画出来的

六书

以象形为基础
- 指事
- 会意
- 形声
- 转注
- 假借

字的结构是什么呢？

间架结构

上下
左右
内外

字型相当复杂
笔画也千姿百态

汉字笔画

笔画
- 也比较复杂

永字八法
- 运笔藏锋
- 很有讲究

印刷时代

相对于英文的26个字母

中文的20000+字符曾经影响文化传播

表音文字

这么多单词
- 没有什么规律

很难发现他们之间的关系

表意文字

中文相对简单

一看就知道这是什么羊

对比

中文	英文
牛	ox
公牛	bull
母牛	cow
牛肉	beaf

对比明显
- 牛肉 = 牛 + 肉
- beef ≠ ox + meat

中文	英文
羊	sheep
羊毛	wool
羊群	Flock
羊肉	mutton

英文单词之间
- 看不到关联

偏旁部首

英文单词构成
- 只有先后次序一种方式

由于汉字是画面
- 可以有各种构图配合
- 就形成了新的汉字

从字型结构
- 可以大致判断词义

数字化

这些特性在数字化时代
- 会有什么帮助吗?

中文文字和对应的字型
- 如何才能数字化呢?

中国大陆地区

中国大陆地区最早使用 GB/T 2312-1980
- 当时参考了
  - 比我们先进的日本JIS 字符集
- 1980 年指定的国标 (GuoBiao)
- 1981 年 5 月 1 日开始使用

GB2312 编码
- 共收录汉字 6763 个
这么多字怎么排呢？

区位

01-09 区为特殊符号
- 先把ascii的128个字符让出去
- 然后再留有些制表符
- 还留了相当多的空余
16-55 区
- 为一级汉字
- 3755 个
- 按拼音排序
56-87 区
- 为二级汉字
- 3008 个
- 按部首／笔画排序

出了汉字之外，还收录了
- 拉丁字母
- 希腊字母
- 日文平假名及片假名字母
- 俄语西里尔字母
- 面面俱到
可是这gb2312
- 具体是如何编解码的呢？🤔

应用

如果是0-127以内的ascii字符
- 标志位为0
- 1个字节存储

如果是ascii以外的字符
- 标志位为1
- 2个字节存储

编解码

编解码方法 一致就可以
- 解铃还须系铃人

同时用 gb2312 编解码
- 是没有问题的
这篇 80年制定标准的文档
- 当时怎么制作出来的呢？？

铅字

虽然计算机
- 在当时还没有普及

但是出版行业
- 已经工业化了

印刷工业

印刷厂
- 使用铅活字
- 进行排版

职业分工明确
- 铸字工
- 拼版工

还有拣字工

拣字工

印刷家谱
- 相对简单
- 从一个大盒子选就够了

字再多些
- 要用转轮排字盘

字再多些呢？

捡字室

大印刷厂
- 字模特别多

甚至要放
- 好几面墙
- 好几张桌子

开端

这曾被
- 使用26个字母的
- 西方文明嘲讽

出书确实不易
- 捡好了字
- 排好了版
- 先打个样
- 再来校对
- 再浇铅板
- 最后印刷
- 以后再版

印刷

最初的
- 书籍
- 杂志
- 报纸
- 试卷
- 都是这样印刷出来的

打印技术
- 也在不断演化

机械打字机

从轮转排字盘
- 到谢卫楼发明的中文打字机

再到舒震东
- 在前人的研究基础上经过创新
- 得到的舒式打字机

中文字符的数量
- 是一个难关
直到
- 照相技术的发展

照片排版

使用照片底片进行排版

也面临检字的工作
- 手工粘贴照片

照片排版技术本身也在迭代

照片排版

用照片排版的方式
- 制作了这样一个汉字编码的文档

激光照排

使用激光扫描照片
- 精度更高

每一个小字型都是一个照片
- 根据汉字内码找到汉字对应的激光照片
- 然后再把激光照片像活字一样排版
- 这就是激光照排技术

激光照排之父

王选

感谢前辈

感谢王选与陈堃銶前辈的技艺

激光照排技术可以
- 印刷中文书籍和报纸了
激光照排中的激光
- 最早被翻译为镭射

激光原理

原本laser 被翻译为镭射
- 音译
- 后来改为激光
- 我们一下子就能看懂词汇的含义

类似的还有
- remote sensing*遥感
- interplanetary flight 航天
这些词汇翻译来自于钱学森前辈
- 留住了汉字的味道

总结

简体和繁体的汉字
- 字符数量都超级大
- 感谢王选和陈堃銶等前辈发明了激光照排技术

中文排版从此使用上了gb2312编码
- 标准定了立刻就能用起来么？
我们下次再说！👋

本文来自 oeasy Python 系统教程。
想完整、扎实学 Python，
搜索 oeasy 即可。