目录
为了方便看新闻印发的一连串问题
一直爱看新闻,但奈何如今信息量巨大,而有益的信息哪怕只看标题都过多,除了凤凰网、凤凰直播以外,手机里有微信公众号、朋友圈、邮件推送(FT中文网)、知乎、凤凰秀、澎湃新闻、路透社、新华社、BBC News等,此外还有很多微信群里发的内容,让人应接不暇,堪称被信息轰炸。这个时代正在逐渐将大多数人变成被动群体,今日头条就是一个典型的例子——通过算法不断地优化你想要的内容,最终你看到的只是你想要看到的,而不是客观存在的,这两者有着显著区别。
为了能够方便自己看新闻,想要将优质渠道的新闻通过计算机自动归集、整理、分析,并报送给我,以便有效了解有价值的信息,同时不会被环绕其中,这就引发了一些需要解决的问题,下面按照顺序概述:
1.信息来源
如今的信息很多,每个人的关注点都不尽相同,获取自己感兴趣的信息源正在变得越来越重要。因为诸如抖音这样的被动信息源正在越来越夸张的吸引我们的时间,使我们主动获取想要的信息变得更重要。
下面是一些个人认为比较有价值的信息源:
1. 凤凰网电脑版网站头条部分(手机版和APP版的广告越来越多)
2. 国研网(需要教育网账号或者订阅)
3. 知乎个别问题(高票答案)
4. 财经早餐公众号-财经早餐
5. 哈佛商业评论文章
6. 路透社文章
2.信息收集与整理
这些平台上的信息量很大,其中有很多垃圾信息,在使用肉眼看的时候无论信息垃圾与否、都可以消耗时间来阅读,并且很容易区分信息的重要程度,但对计算机来说区分信息的重要性很难,需要使用一些科学方法实现对有效信息的收集和数据的标准化整理。
(1)有效信息的收集
有效信息的收集是一个长期的过程,例如我们从学生时代开始的纸质笔记、手机的备忘录、QQ空间的日记、博客、电子笔记(OneNote等)等,可能其中有很多我们一生都不会再见到,遇到问题的时候使用百度、谷歌等搜索引擎解决,无法解决的问题根据难易程度换一种态度去面对?毕竟无法解决的问题大多都不是基本问题(马斯洛需求的底层),所以我们离开学校,步入职场后并没有非解决不可的问题。
有点扯远了,纸质信息的收集相对困难,重要的信息可能要用电脑重新敲一遍,而不重要的信息分类整理起来放在屋里就好;电子信息收集起来相对简单,我们只需要搭建一个“数据库”存放起来,以备查询即可。
针对我们想要获得的数据,如果网络上有,就可以通过自动化的手段得到,目前主流的方式主要包括以下几种:
a. 添加到浏览器收藏夹,以便需要时打开查看;
b. 从网络上复制粘贴,存入电脑的文档中;
c. 使用各类笔记软件(OneNote等)记录信息;
d. 使用各类爬虫从网络爬取信息,存入数据库;
e. 利用一些API直接调用需要的数据(tushare、阿里开放库等),直接使用或存入数据库;
f. 书上看到的内容采用摘抄、拍照等方式存在手机里;
…
总而言之,如今收集信息的渠道很多,也很零碎,与上学期间一直都在学习的方式不同,未来在终生学习的背景下,知识点的归集、整理和使用会变得越来越重要。这些收集的信息来自不同的渠道,意味着数据存在不同程度的格式、缺失、错误、精准度等问题,同时这些数据几乎是孤立的,且不说里边存在垃圾信息,将知识分开存储或者用不同的软件获取知识本身就是一件费神的事,所以大多数情况下这些内容的作用有限。反而培训机构、资证考试、课堂学习获取的知识更系统和全面。
(2)数据的标准化整理
为了使数据方便使用,发挥更大价值,需要对收集到的信息进行标准化整理,否则接触的知识越多、扔掉的知识越多,并没有让我们“站在巨人的肩膀山”驾驭知识。通常数据整理有以下几个层面:
a. 分类【知识分类、格式分类、重要度分类】
分类是基础,通常也最有效,著名的思维导图就是表述分类与关系的图谱,方便人们理解抽象的概念和关系。涉及内容较多,下面简要说明:
①知识分类:学生时代学习的课程分为数学、语文、英语等学科,就是对知识的分类,毕业之后步入职场、走近生活,这种分类变得模糊和不实用,我们需要将工作和生活分开、友情和爱情分开,分类的需求在不断变化。简单来说,知识分类难以界定而且需求差异大,通常我们可以基于学科分类,结合自己的习惯,打造自己的分类体系。(国家学科分类包括自然科学、农业科学、医药科学、工程与技术科学、人文与社会科学)
②格式分类:通常,知识是通过文件、视频、图片等形式承载的,其中文件占比更大,其格式的种类也多。
格式分类主要为了方便使用,最好使用常见格式,以便不兼容。
③重要度分类:在管理中通常只有不到20%的知识会被频繁使用,而且发挥了超过80%的价值,所以按照重要度分类也是为了方便使用。
例如对知识分类时就应该考虑到重要度的问题,对于不那么重要的知识可以粗略分类,而比较重要的知识应该分得更细。
b. 标准化【知识结构、知识口径、表述方式】
标准化是机器学习的基础,通常情况下人工识别更加智能,但效率很低,如果未来想要借助机器学习挖掘信息,就需要对数据进行标准化。
①知识结构:是知识的呈现方式,例如在谈到概念时我们通过是什么、为什么、怎么样来了解;谈到目标时我们通过具体、可测量、可达到、关联、期限来了解。
这比分类更难,需要长期的积累和改进,但非常有助于新知识的快速掌握。
②知识口径:是知识表述内涵和外延的标准化,例如点子这个词在不同的语境里代表的意思可能不同,但指代的对象应当具有前后一致性,以便在未来使用的时候能够前后对比;数据对口径的要求更高,例如企业计算营业收入时如果口径不同,纳税额就会变化,被查出来就必须调整,而且无法采用同比、环比的方式观察研究。
③表述方式:可以理解为语感,中文历史悠久、方言又多,一词多义很常见,而且同样的词语不同的顺序和语气意思大相径庭,这会给未来的机器学习和分析、使用带来隐患。这通常情况下比较繁琐,要求较高。
c. 归一化【分类统一、标准统一、平台统一、同步更新】
归一化是知识的集成互通,就像大脑发达与否取决于神经的联结数量一样,发挥知识的价值也需要集成互通知识。百度、谷歌搜索引擎广为人知,而且越来越离不开,原因就是他们集成了互联网上的知识并创建索引,不同之处在于谷歌的分类和搜索做得更好,而百度把金钱放在了主分类上,当然这是题外话。下面简要说明:
①分类统一:是分类的标准化。虽然对于个体来说分类需求各异,但知识的高效利用又依赖于减少分类标准,这其中需要权衡。我们应该尽可能减少分类并且兼容主分类(国家学科分类等),满足自己使用的同时可以让知识体无限扩容。
②标准统一:是标准化的标准。知识结构、知识口径和表述方式是知识的标准化途径,而统一这个途径的标准有助于知识的大规模构建、标准化、机器学习和分析使用。
③平台统一:是知识载体的统一。如今我们的手机里App众多,每个里边都有不同的相关内容,更不要说初中时候的笔记本了。这些知识通过被不同的载体隔开以便高效运行,但对知识的管理来说并无益处。例如上学时的笔记,工作时想要用但往往难以找到,通常情况下借助搜索引擎解决,但对于知识创造和复杂决策来说这种方式很难凑效。笔记、日志、影评、收藏夹、新闻资讯、报告等内容归集在一起,按照既定的分类和标准统一起,是数据标准化整理的核心。
④同步更新:是知识的时间轴变化。无论是客观知识的发现过程还是主观知识的认知过程,总是随着时间发生变化,意味着知识应该是新鲜的,同步更新就变得很重要。例如通过不断的bug和commit过程,让一个github项目变得越来越好;一个孩子从丫丫学步到参加工作,大脑中对世界的认知也在不断发生变化。
归一化的前三项使知识横向整合,第四项使知识纵向综合,形成一个活的知识框架,能够让知识无限扩张、延展。
3.信息存储和使用
信息不可能孤立存在,需要载体承载才能发挥作用。信息使用的方式各种各样,使得信息整理、信息存储和信息使用相互之间密不可分。
(1)信息存储
目前信息统一存储的方案有很多,例如云平台(阿里云等)、网盘(百度网盘等)、NAS(群辉等)、终端平台(电脑、手机等),而独立存储的方案数不胜数。目前大部分用户的数据是以独立存储的方式存在的,例如浏览器收藏夹、网盘、阿里云存储、电脑课件、书籍笔记等等,而大部分企业的数据正在逐步走向统一存储,不但可以节约成本,而且降低风险、便于分析利用,财务共享模式也正在流行。对于个人来说选择适合自己的方式即可,对于数据量不多的用户来说电脑硬盘足矣,喜欢收藏电影的用户可以考虑使用NAS方案,对信息需求频度较高的用户可以选择云平台,对信息机密层级不高的用户可以选择网盘。
(2)信息使用
做了这么多铺垫最终是为了使用信息,例如看新闻、查资料、作报告等,都属于信息的用途,下面分类简要说明:
a. 信息查询
这是通常使用信息频率最高的一种方式。例如想知道“Wonderful”的中文意思,想了解附近有哪些好吃的去处,想学习一个新的概念“NDF”,此时就需要查询信息,通常会分别使用翻译、饮食APP(美团、大众点评)、搜索引擎(百度、google)来查询不同的内容。基于当前免费至上、娱乐至死的形态,我们可以免费使用99%的APP,代价是接受广告或者消耗时间,使我们能够在不同的平台免费搜索自己想要的东西,对于绝大多数人来说足够使用。但对于想要学习的专门知识,这些免费的APP很多情况下就无法实现,需要间接搜索或者翻阅书籍。
b. 信息浏览
如果对存储的信息不了解就几乎无法利用它,而浏览是了解信息最常用的方式之一。例如我们想要学习数据分析基础课程,慕课网等学习网站有现成的视频学习资料,或者我们通过论坛和网站(廖雪峰学习网站)的方式学习,但如果我们想要学习司法考试的相关知识,就需要购买专业书籍,而数据分析高级课程通常也是收费的。基于当前信息的碎片化,信息浏览的端口和平台越来越多,如何高效且有针对性地浏览是比较关注的问题。
c. 信息加工
以自动化、标准化的方式使用信息正在变得越来越流行,即将信息作为原材料通过自动化、标准化方法进行加工形成中间产品或成品再使用。信息加工依赖统计、算法和编程知识。例如常用的求和、求平均、求标准差、回归、聚类和不常用的神经网络、规划方法,以及近期热门的机器学习等,都能够解决一部分问题。此外,信息加工还包括数据清洗和信息呈现。数据清洗是指将数据规范化处理,剃除可疑数据,例如负值房价、不标准的日期格式等;信息呈现是指数据的图表展示,常见的有直方图、折线图、饼图、雷达图、散点图、热力图、数据表等(Excel可以实现绝大部分),能够从不同的角度展现信息的趋势、占比等。
以上,从信息来源、信息收集与整理、信息存储和使用三个方面简要论述信息的管理,也是知识的管理,只不过知识的来源更多、更广、更系统,整理起来也更复杂。从开头写到这里已经是20天之后了,与当初想要方便看新闻的初衷相比已经有些跑题,但归根结底是信息的使用,如何更方便、更系统、更迅捷的获取和使用信息将变得越来越重要,毕竟在信息爆炸的时代,垃圾信息和无用信息的数量和传播都远远超过有效信息。
新闻也好,信息也好,知识也罢,希望文章能够对大家有所裨益。