为了方便看新闻印发的一连串问题

一直爱看新闻，但奈何如今信息量巨大，而有益的信息哪怕只看标题都过多，除了凤凰网、凤凰直播以外，手机里有微信公众号、朋友圈、邮件推送（FT中文网）、知乎、凤凰秀、澎湃新闻、路透社、新华社、BBC News等，此外还有很多微信群里发的内容，让人应接不暇，堪称被信息轰炸。这个时代正在逐渐将大多数人变成被动群体，今日头条就是一个典型的例子——通过算法不断地优化你想要的内容，最终你看到的只是你想要看到的，而不是客观存在的，这两者有着显著区别。
为了能够方便自己看新闻，想要将优质渠道的新闻通过计算机自动归集、整理、分析，并报送给我，以便有效了解有价值的信息，同时不会被环绕其中，这就引发了一些需要解决的问题，下面按照顺序概述：

1.信息来源

如今的信息很多，每个人的关注点都不尽相同，获取自己感兴趣的信息源正在变得越来越重要。因为诸如抖音这样的被动信息源正在越来越夸张的吸引我们的时间，使我们主动获取想要的信息变得更重要。
下面是一些个人认为比较有价值的信息源：
1. 凤凰网电脑版网站头条部分（手机版和APP版的广告越来越多）
2. 国研网（需要教育网账号或者订阅）
3. 知乎个别问题（高票答案）
4. 财经早餐公众号-财经早餐
5. 哈佛商业评论文章
6. 路透社文章

2.信息收集与整理

这些平台上的信息量很大，其中有很多垃圾信息，在使用肉眼看的时候无论信息垃圾与否、都可以消耗时间来阅读，并且很容易区分信息的重要程度，但对计算机来说区分信息的重要性很难，需要使用一些科学方法实现对有效信息的收集和数据的标准化整理。

（1）有效信息的收集

有效信息的收集是一个长期的过程，例如我们从学生时代开始的纸质笔记、手机的备忘录、QQ空间的日记、博客、电子笔记（OneNote等）等，可能其中有很多我们一生都不会再见到，遇到问题的时候使用百度、谷歌等搜索引擎解决，无法解决的问题根据难易程度换一种态度去面对？毕竟无法解决的问题大多都不是基本问题（马斯洛需求的底层），所以我们离开学校，步入职场后并没有非解决不可的问题。
有点扯远了，纸质信息的收集相对困难，重要的信息可能要用电脑重新敲一遍，而不重要的信息分类整理起来放在屋里就好；电子信息收集起来相对简单，我们只需要搭建一个“数据库”存放起来，以备查询即可。
针对我们想要获得的数据，如果网络上有，就可以通过自动化的手段得到，目前主流的方式主要包括以下几种：
a. 添加到浏览器收藏夹，以便需要时打开查看；
b. 从网络上复制粘贴，存入电脑的文档中；
c. 使用各类笔记软件（OneNote等）记录信息；
d. 使用各类爬虫从网络爬取信息，存入数据库；
e. 利用一些API直接调用需要的数据（tushare、阿里开放库等），直接使用或存入数据库；
f. 书上看到的内容采用摘抄、拍照等方式存在手机里；
…

总而言之，如今收集信息的渠道很多，也很零碎，与上学期间一直都在学习的方式不同，未来在终生学习的背景下，知识点的归集、整理和使用会变得越来越重要。这些收集的信息来自不同的渠道，意味着数据存在不同程度的格式、缺失、错误、精准度等问题，同时这些数据几乎是孤立的，且不说里边存在垃圾信息，将知识分开存储或者用不同的软件获取知识本身就是一件费神的事，所以大多数情况下这些内容的作用有限。反而培训机构、资证考试、课堂学习获取的知识更系统和全面。

（2）数据的标准化整理

为了使数据方便使用，发挥更大价值，需要对收集到的信息进行标准化整理，否则接触的知识越多、扔掉的知识越多，并没有让我们“站在巨人的肩膀山”驾驭知识。通常数据整理有以下几个层面：

a. 分类【知识分类、格式分类、重要度分类】
分类是基础，通常也最有效，著名的思维导图就是表述分类与关系的图谱，方便人们理解抽象的概念和关系。涉及内容较多，下面简要说明：

①知识分类：学生时代学习的课程分为数学、语文、英语等学科，就是对知识的分类，毕业之后步入职场、走近生活，这种分类变得模糊和不实用，我们需要将工作和生活分开、友情和爱情分开，分类的需求在不断变化。简单来说，知识分类难以界定而且需求差异大，通常我们可以基于学科分类，结合自己的习惯，打造自己的分类体系。（国家学科分类包括自然科学、农业科学、医药科学、工程与技术科学、人文与社会科学）

②格式分类：通常，知识是通过文件、视频、图片等形式承载的，其中文件占比更大，其格式的种类也多。
格式分类主要为了方便使用，最好使用常见格式，以便不兼容。

③重要度分类：在管理中通常只有不到20%的知识会被频繁使用，而且发挥了超过80%的价值，所以按照重要度分类也是为了方便使用。
例如对知识分类时就应该考虑到重要度的问题，对于不那么重要的知识可以粗略分类，而比较重要的知识应该分得更细。

b. 标准化【知识结构、知识口径、表述方式】
标准化是机器学习的基础，通常情况下人工识别更加智能，但效率很低，如果未来想要借助机器学习挖掘信息，就需要对数据进行标准化。

①知识结构：是知识的呈现方式，例如在谈到概念时我们通过是什么、为什么、怎么样来了解；谈到目标时我们通过具体、可测量、可达到、关联、期限来了解。
这比分类更难，需要长期的积累和改进，但非常有助于新知识的快速掌握。

②知识口径：是知识表述内涵和外延的标准化，例如点子这个词在不同的语境里代表的意思可能不同，但指代的对象应当具有前后一致性，以便在未来使用的时候能够前后对比；数据对口径的要求更高，例如企业计算营业收入时如果口径不同，纳税额就会变化，被查出来就必须调整，而且无法采用同比、环比的方式观察研究。

③表述方式：可以理解为语感，中文历史悠久、方言又多，一词多义很常见，而且同样的词语不同的顺序和语气意思大相径庭，这会给未来的机器学习和分析、使用带来隐患。这通常情况下比较繁琐，要求较高。

c. 归一化【分类统一、标准统一、平台统一、同步更新】
归一化是知识的集成互通，就像大脑发达与否取决于神经的联结数量一样，发挥知识的价值也需要集成互通知识。百度、谷歌搜索引擎广为人知，而且越来越离不开，原因就是他们集成了互联网上的知识并创建索引，不同之处在于谷歌的分类和搜索做得更好，而百度把金钱放在了主分类上，当然这是题外话。下面简要说明：

①分类统一：是分类的标准化。虽然对于个体来说分类需求各异，但知识的高效利用又依赖于减少分类标准，这其中需要权衡。我们应该尽可能减少分类并且兼容主分类（国家学科分类等），满足自己使用的同时可以让知识体无限扩容。

②标准统一：是标准化的标准。知识结构、知识口径和表述方式是知识的标准化途径，而统一这个途径的标准有助于知识的大规模构建、标准化、机器学习和分析使用。

③平台统一：是知识载体的统一。如今我们的手机里App众多，每个里边都有不同的相关内容，更不要说初中时候的笔记本了。这些知识通过被不同的载体隔开以便高效运行，但对知识的管理来说并无益处。例如上学时的笔记，工作时想要用但往往难以找到，通常情况下借助搜索引擎解决，但对于知识创造和复杂决策来说这种方式很难凑效。笔记、日志、影评、收藏夹、新闻资讯、报告等内容归集在一起，按照既定的分类和标准统一起，是数据标准化整理的核心。

④同步更新：是知识的时间轴变化。无论是客观知识的发现过程还是主观知识的认知过程，总是随着时间发生变化，意味着知识应该是新鲜的，同步更新就变得很重要。例如通过不断的bug和commit过程，让一个github项目变得越来越好；一个孩子从丫丫学步到参加工作，大脑中对世界的认知也在不断发生变化。

归一化的前三项使知识横向整合，第四项使知识纵向综合，形成一个活的知识框架，能够让知识无限扩张、延展。

3.信息存储和使用

信息不可能孤立存在，需要载体承载才能发挥作用。信息使用的方式各种各样，使得信息整理、信息存储和信息使用相互之间密不可分。

（1）信息存储

目前信息统一存储的方案有很多，例如云平台（阿里云等）、网盘（百度网盘等）、NAS（群辉等）、终端平台（电脑、手机等），而独立存储的方案数不胜数。目前大部分用户的数据是以独立存储的方式存在的，例如浏览器收藏夹、网盘、阿里云存储、电脑课件、书籍笔记等等，而大部分企业的数据正在逐步走向统一存储，不但可以节约成本，而且降低风险、便于分析利用，财务共享模式也正在流行。对于个人来说选择适合自己的方式即可，对于数据量不多的用户来说电脑硬盘足矣，喜欢收藏电影的用户可以考虑使用NAS方案，对信息需求频度较高的用户可以选择云平台，对信息机密层级不高的用户可以选择网盘。

（2）信息使用

做了这么多铺垫最终是为了使用信息，例如看新闻、查资料、作报告等，都属于信息的用途，下面分类简要说明：

a. 信息查询
这是通常使用信息频率最高的一种方式。例如想知道“Wonderful”的中文意思，想了解附近有哪些好吃的去处，想学习一个新的概念“NDF”，此时就需要查询信息，通常会分别使用翻译、饮食APP（美团、大众点评）、搜索引擎（百度、google）来查询不同的内容。基于当前免费至上、娱乐至死的形态，我们可以免费使用99%的APP，代价是接受广告或者消耗时间，使我们能够在不同的平台免费搜索自己想要的东西，对于绝大多数人来说足够使用。但对于想要学习的专门知识，这些免费的APP很多情况下就无法实现，需要间接搜索或者翻阅书籍。

b. 信息浏览
如果对存储的信息不了解就几乎无法利用它，而浏览是了解信息最常用的方式之一。例如我们想要学习数据分析基础课程，慕课网等学习网站有现成的视频学习资料，或者我们通过论坛和网站（廖雪峰学习网站）的方式学习，但如果我们想要学习司法考试的相关知识，就需要购买专业书籍，而数据分析高级课程通常也是收费的。基于当前信息的碎片化，信息浏览的端口和平台越来越多，如何高效且有针对性地浏览是比较关注的问题。

c. 信息加工
以自动化、标准化的方式使用信息正在变得越来越流行，即将信息作为原材料通过自动化、标准化方法进行加工形成中间产品或成品再使用。信息加工依赖统计、算法和编程知识。例如常用的求和、求平均、求标准差、回归、聚类和不常用的神经网络、规划方法，以及近期热门的机器学习等，都能够解决一部分问题。此外，信息加工还包括数据清洗和信息呈现。数据清洗是指将数据规范化处理，剃除可疑数据，例如负值房价、不标准的日期格式等；信息呈现是指数据的图表展示，常见的有直方图、折线图、饼图、雷达图、散点图、热力图、数据表等（Excel可以实现绝大部分），能够从不同的角度展现信息的趋势、占比等。

以上，从信息来源、信息收集与整理、信息存储和使用三个方面简要论述信息的管理，也是知识的管理，只不过知识的来源更多、更广、更系统，整理起来也更复杂。从开头写到这里已经是20天之后了，与当初想要方便看新闻的初衷相比已经有些跑题，但归根结底是信息的使用，如何更方便、更系统、更迅捷的获取和使用信息将变得越来越重要，毕竟在信息爆炸的时代，垃圾信息和无用信息的数量和传播都远远超过有效信息。
新闻也好，信息也好，知识也罢，希望文章能够对大家有所裨益。