Skip to content

Latest commit

 

History

History
401 lines (304 loc) · 9.84 KB

File metadata and controls

401 lines (304 loc) · 9.84 KB
Error in user YAML: (<unknown>): found a tab character that violate indentation while scanning a plain scalar at line 3 column 3
---
- oeasy Python 0412
- 这是 oeasy 系统化 Python 教程,从基础一步步讲,扎实、完整、不跳步。愿意花时间学,就能真正学会。
- 本教程同步发布在: 
	- 个人网站: `https://oeasy.org` 
	- 蓝桥云课: `https://www.lanqiao.cn/courses/3584` 
	- GitHub: `https://github.com/overmind1980/oeasy-python-tutorial` 
	- Gitee: `https://gitee.com/overmind1980/oeasypython` 
---

各语言字符编码

回忆上次内容

  • 罗马
    • 承袭了 希腊的文化
      • 学习了 希腊的字符
  • 罗曼语族 拉丁字符 伴随着
    • 罗马帝国的 军力
    • 威尼斯的商业
    • 基督教 的 文化
    • 开始了 新的扩张

图片描述

  • 这个时候
    • 不列颠 只是 凯撒高卢战记里的 边缘小国
  • 但是 我们现在学python用的字符
    • 不是希腊、罗马字符
    • 而是英文字符
  • 英国是如何从边缘之地
  • 引领文化、走向世界的呢?🤔

从拉丁到英文

  • 日耳曼语族 从北方 大幅度南进
    • 西边昂撒部 进入 不列颠尼亚
    • 中路法拉克部 进入 高卢
    • 东边哥特部 进入 罗马
  • 日耳曼部落
    • 从重要兵源
    • 到军事力量
    • 再到占领者
  • 将原来的拉丁罗马帝国肢解
    • 正如拉丁对于凯尔特所做的一样

图片描述

  • 拉丁文从希腊接收到的文化
    • 开始被日耳曼所学习
  • 哲学、技术书
    • 都是拉丁字符写的
    • 印刷圣经用的也都是拉丁字符
    • 昂撒最早自己整理的史料
      • 《盎格鲁-撒克逊编年史》 使用的却是拉丁字符
  • 奥丁和索尔逐渐被上帝所取代
    • 最后的维京人 哈拉尔德 倒下
    • 尤姆斯战团 陨落
  • 卢恩符文 对战 拉丁字符
    • 赢得了 战场
    • 却输了 文化

回顾历史

  • 字母字型历代记
    • 古埃及
    • 腓尼基
    • 古希腊
    • 拉丁
    • 罗马
    • 现代

图片描述

  • 字符越来越多
    • 因为 不断有新词需要拼写

新单词

  • “肉”的表示 • 牛(cow/ox)的肉是 beef • 羊(sheep)的肉是 mutton • 鸡(chicken) • 猪(pig)的肉是 pork • 鹿(deer)的肉是 venison

  • 这种差异主要和英语的历史演变有关

    • 很多表示肉类的词汇源自法语
      • 征服者威廉来自法国
      • 从龙之臣有机会吃肉 都这么表达
        • pork 来自古法语 por
        • beef 来自古法语 boef)
    • 动物 饲养员
      • 是 昂撒人
      • 用 日耳曼语词源
    • 因此形成了“动物名”和“肉名”分离的情况。
  • 这拉丁字符

    • 抄着抄着
    • 还在不断变化

大小写字母

  • 抄经风格
    • 刻画直线风格
    • 抄经专用
    • 人均 Captain

图片描述

  • 手写随意风
    • 草书曲线风格
    • 记账 记家谱

小写字母

  • 随着 法兰克王国 中
    • 加洛林家族 取代 墨洛温家族
    • 法兰克王国 扩张
  • 查理曼大帝
    • 想要提高贵族的 文化
    • 找抄经人规范化 书写风格
    • 找到了一种 非常容易区分的 书写风格
    • 被叫做
    • 加洛林小草书体

图片描述

  • 加洛林 小草书体

    • Carolineminuscel
    • 也成为 钦定字体
    • 广泛传播
  • 这些字母有分类吗?

字型分类

  • 字型如何分辨谁是正宗?
  • 中文字体中
    • 黑体、楷体、宋体谁是正宗呢?
      • 很难说
    • 根源上说甲骨文是正宗
      • 毛笔字体中
      • 隶书从时间上 离 甲骨文 更近
      • 讲求篆意 就是 追寻传统
  • 只能找到 字体流变河流中
    • 某个时间点的主流字型

图片描述

  • 上图为用ai对各种字体字型进行分类
    • 基本两类
    • 横平竖直的大写硬朗风
    • 圆滑飘逸的小写手写风

大小写配合

  • 在 文艺复兴 时期
    • 加洛林小草书体 被当做 罗马正宗
    • 被 大力推崇

图片描述

  • 两种风格相互配合
  • 句首字符 抄经风格 正式
    • 后面字符 小写 随意洒脱
    • 好像队长 带着 队员
    • 大写字符 就被叫做 队长
      • capital letter

图片描述

科学革命

  • 拼音符号 也有 好处
    • 只有30个不到的 符号
    • 每个符号的意义 可以更加抽象

图片描述

  • 可以把实验数据

    • 抽象成 物理公式
    • 然后 不断抽象
    • 构思 大一统的 物理公式
  • 对比之下

    • 象形文字 过于 明确的形象
    • 不利于 抽象出 概念
    • 也就 没有 发展出
      • 科学革命
      • 启蒙运动
      • 工业革命
  • 字音可以分类吗?

元音辅音

  • 其实分类
    • 从用字母来表示发音的时候
      • 就开始了

图片描述

  • 主要分为
    • 元音
    • 辅音

元音

  • vowel

图片描述

  • 元音是
    • 用嗓音 控制声音频率的

辅音

  • consonant

图片描述

  • 辅音是
    • 用唇齿舌 控制元音起止位置特征的
  • 元音和辅音配合起来
    • 形成了各种词汇
      • python
      • print
      • ordinal
      • character
  • 吸取了多种词源文化的英国
    • 率先爆发了工业革命

工业革命

  • 英国经历了工业革命
    • 飞梭
    • 珍妮机
    • 水力织布机
    • 蒸汽机车

图片描述

  • 工业革命提高生产率
    • 大量生产工业品
    • 通过蒸汽轮船运往世界

音译带来分化

  • 巴西的一种水果
    • 热情果
      • passion fruit

图片描述

  • 翻译成 中文 叫做
    • 百香果
  • passion 和 百香
    • 发音相似
    • 但是含义完全不同了

日不落

  • 英国
    • 坐着带加农炮的蒸汽轮船
    • 用效率更高的工业品打开了农业社会的市场
    • 建立殖民地和半殖民地
    • 先后战胜西班牙、荷兰、法国
    • 成为日不落帝国

图片描述

  • 美洲十三块领地

    • 用拉丁字符写下《独立宣言》并引领科技
    • 电报、打字机、计算机出现
    • 最终 7-bit 的 ascii
    • ISO 发布 基于不同书写系统的 8859系列字符集
  • 拉丁字符

    • 已经成为英语的基础
    • 世界发展的大趋势
    • 但是各地还是有所不同

发音的不同

  • 时间久了就形成了方言
    • 发音变了
    • 拼写也就变了

图片描述

  • 用一个相当长的历史时间去看
    • 变化是惊人的

图片描述

  • 就算同一种方言
    • 国贸(guomao)
      • 以前叫什么?
      • 八王坟(bawangfen)
      • 大北窑(dabeiyao)
    • 这词汇量就上去了
  • 英语吸收了
    • 希腊语
    • 拉丁语
    • 日耳曼语
    • 各种词汇都有微妙区别

拼写方式的不同

  • 各地有自己的
    • 发音特点
    • 拼写规则
  • 同源的单词
    • 即使都用拉丁字符来书写
    • 彼此也不相同
  • 名可名非恒名

图片描述

  • 从腓尼基 到希腊 再到罗马

    • 基于商业贸易和小政府的 英美海洋体系 构成基础
    • 军事和皇权对应的 罗马(法德)大陆体系 构成补充
  • 突然能理解

    • 为什么使用拼音文字的欧洲分成好多国家

名字

语言 正式名 发音(国际音标) 中文译名 文化/语系背景
英语 John /dʒɒn/ 约翰 日耳曼语系(源自希伯来语)
西班牙语 Juan /xwan/ 胡安 罗曼语系(西班牙语“J”发/x/)
法语 Jean /ʒɑ̃/ 罗曼语系(法语变体,源自希伯来语)
意大利语 Giovanni /dʒoˈvanni/ 乔瓦尼 罗曼语系(意大利语复合形式)
葡萄牙语 João /ʒuˈɐ̃/ 若昂 罗曼语系(葡萄牙语带鼻音化元音)
俄语 Иван (Ivan) /ɪˈvan/ 伊万 斯拉夫语系(东正教传播引入)
  • 类似的还有
语言 正式名 发音(国际音标) 中文译名 文化/语系背景
英语德语 Peter /ˈpiːtər/ 彼得 日耳曼语系(源自希腊语“岩石”)
法语 Pierre /pjɛːr/ 皮埃尔 罗曼语系(法语“r”发小舌音)
西班牙语 Pedro /ˈpeðɾo/ 佩德罗 罗曼语系(西班牙语“d”发浊音/ð/)
意大利语 Pietro /ˈpjetro/ 彼得罗 罗曼语系(意大利语保留尾音“o”)
俄语 Пётр (Pyotr) /pʲɵtr/ 彼得 斯拉夫语系(俄语硬音符号“ъ”区分发音)

概念的变化

  • 即使英文中同一个单词nice
    • 在漫长的时间中
    • 词义也在不断变化

图片描述

  • 不同年代 的 文本
    • nice的 词向量 会完全不同
    • 理论上 不同年代 应该有 不同的 大模型

词汇量差距

  • 这才知道回来感谢我们的象形文字!
    • 比较准确地描述了3000+年
    • 词意 相对稳定
文字类型 来源 特点 重视 擅长 符号数量
拼音 声音 时间音变 细微变化 独立分析 20+
象形 画面 空间画面 整体共通 关联综合 40000+
  • 英文字符、数字、标点
    • 总共也没有多少个
    • 在 印刷工业上
    • 字模少
    • 有优势

图片描述

  • 使用 象形文字的中日韩越 亚洲 文化圈
    • 字母数量20000+起
  • 这编码规则 的 世界大战
    • 其实才刚刚开始!

总结

  • 中日韩的文字也需要进入计算机
    • 象形文字的字符集超级巨大
    • 日本、韩国也用汉字

图片描述

  • 真能把 如此巨大的字符集
    • 编码进入计算机吗?🤔
  • 我们下次再说!👋

  • 本文来自 oeasy Python 系统教程。
  • 想完整、扎实学 Python,
  • 搜索 oeasy 即可。