首页 热点资讯 义务教育 高等教育 出国留学 考研考公

小白如何学习数据分析

发布网友 发布时间:2022-04-20 16:51

我来回答

5个回答

懂视网 时间:2022-04-10 23:43

电脑是几年前的电脑了,用起来不流畅,自己开发一个网站,涉及到数据库,一是不了解数据库,二是也不太想现在学,三就是电脑装上可能又卡了,于是就用txt文档当个简易的"数据库"了。

想开发一个类似于博客的收藏夹个人主页(学习开发总是从没有意义的事情开始的),其中读取收藏页面的功能就需要涉及到数据,我把每个收藏夹的URL统一存放在一个txt文档中,用Python读取这里面的信息依据模板自动生成html文件,可以说这也算是一个框架?

下面就来说说这个"框架":

 将网页开发分成两个过程

第一个过程是设计静态html模板,也就是说先写好一个html文件,把其中需要用数据库的代码段划分出来(比如在其前后加上一个特殊的字符串:qweasdzxc),这样写出来的html文档就可以作为一个模板提供给后面的步骤;

第二个过程是用Python写上一个过程划分出来的未完成的代码部分,Python先读取刚刚到html模板,将我们设计的那一串特殊字符串qweasdzxc作为split函数的参数,将文本分成三个部分,我们只要用Python写第二个部分就好了,其余都不做改变,然后新生成一个newhtml,这时newhtml就是我们最终的页面了(含数据的页面)。

这个"框架"先写模板,然后复制模板添加数据,最终生成页面。下面我们说一说添加数据的这个过程。

用Python添加数据,其实无非就是将数据库的内容存成变量,用file.write()写入html源码罢了,没什么技术含量。

但是真正实践的过程中,你会发现,这个过程远比你想象的有意义多了,它能使你更好的理解数据库是什么以及数据库的结构。

version1:

用txt做数据库文件,之所以用txt是因为txt很小,可以随手打开并添加内容,速度很快,效率很高(比起用Excel做数据库文件快多了)

txt文档的内容是一块的,要想让程序很好的读取显然不能直接使用txt,我们需要对txt的内容进行装饰一下(说白了就是加上一些特殊字符串让txt能像Excel那样可以分块的被程序读取,这种方法在写模板html时用过)。比如说txt内容分了三大块,那三大块之间可以用qweqwe这个字符串分开,而每一个大块之间又分有三个中块,那就可以用asdasd将他们分开,以此类推我们可以用zxczxc将小块分开,让txt文档有层次结构,Python可以用split只读取每一块的数据,而不是整个txt的一大坨内容。

txt数据库文件就写好了,美哉美哉~

version2:

你可能会觉得txt很low!但这并不是我写version2的动机,真正的原因是,上面的txt数据库功能太局限了,就只有一个分割功能,当我想对数据进行更多的操作的时候,我发现我根本做不了(比如我想按网站去划分收藏夹而不是我事先定义好的栏目名称),这并不是txt本身的问题,而是我是数据太少了,就只有一个URL,没有更多的数据支持我将这些URL分门别类。

可能你会说那在写txt时加上这些数据不就好了,那我是不是就要用更多的特殊字符串进行分隔?一旦一条数据的特征多了(像URL网站是这一条URL的一个特征,创建日期也是它的一个特征),那需要的特殊字符串就会很多,对整个开发过程来说无疑增加了复杂度(那么多特殊字符串看着我都烦!写程序的时候我还要理解谁对应的谁,头大啊)

那用Excel就显得势在必行了,但是正如前面所说,windows打开Excel有时间延迟的,而且Excel占用电脑内存不小呢,显然就做不到我们想要的随时都能手记。是的,统统这些都是不利,所以我们想到了Python的xlrd库和xlwt库,没错,我们可以写一个程序专门来对接Excel文件,作为数据的输入中介,我们不需要打开Excel,只用在这个程序上输入URL和它的特征,程序会将这些东西自己追加在Excel数据库中去,是不是方便了许多许多,dei,nice呦~

version3:

尽管version2是那么的"完美",但它的弊端还是很明显的,那就是Excel能为我们提供的排序之类的数据操作功能,version2显然不能完成?(我还不知道有没有这种方法)

所以大家可以去用真正的大家都在用的数据库软件了!over~

希望你看完这些,能对数据库有一个较好的理解。

小白对于数据库的初步理解

标签:库文件   直接   split   das   不能   开发   网页开发   win   xlwt   

热心网友 时间:2022-04-10 20:51

如果是对数据分析完全无基础的小白,其实并不推荐你走开发方向,因为开发方向对学历、学校、专业都有非常高的要求,并不是可以通过后天培训能补足的,所以非本专业的人不建议去转这这个方向。
如果真的想学,我比较建议你去了解一下业务分析方向,大家说的数据分析师其实就是指这个方向的,那么要去学习的话,就要以实际出发,考虑企业到底需要什么样的数据分析师。
这是要根据公司的业务来决定的,大致我归纳了几点。
①为产品经理提供帮助,国内产品经理不懂数据分析,而新产品的竞争情报分析、产品敏捷测试等都需要数据分析师帮助完成,后期产品迭代优化还是需要数据分析师采集用户行为、习惯、评价等数据来完成。
②为运营经理提供帮助,产品运营中的用户流量、促销、顾客关系管理等需要数据分析师帮助完成。
③为公司数据制定标准,各部门数据打通,实现数据化管理等工作。
所以这就能看到好多学习者有个误区,就是把大量的时间放在工具的学习上,但其实工具并不是最重要的,很多刚刚毕业的同学空有一身工具本领却不知如何施展,找工作时到处碰壁,其主要原因就是因为他们没接触过项目,对业务没感觉,不知道如何把所学的知识运用到真实的企业经营中,这就造成了很多毕业生就业困难,而能实际解决问题的数据分析师有极度稀缺的状况。
数据分析师最重要的就是商业方面的知识,比如EDA、促销分析、产品管理、品类管理、库存管理、成本分析、定价策略、价格管理、顾客管理等,同时也要会如何与数据相结合,去解决企业面临的问题。

热心网友 时间:2022-04-10 22:09

其实无论是小白或者超级菜鸟,又或者已经具备一定的数理统计或计算机编程基础,对于学习数据分析师来说,都是从头开始。虽然拥有一定的学资背景,会让你在刚开始学习时比较容易上手,但都是基本性的东西,不具备明显的优势。个人的努力和兴趣,以及自觉学习和自主思考的能力也非常重要。不要因为自己是菜鸟而妄自菲薄,付出终有回报,只要持之以恒。
明确目标导向,学习必备也是最有用的那部分,才能避免无效信息降低学习效率。
明确知识框架和学习路径
数据分析这件事,如果你要成为数据分析师,那么你可以去招聘网站看看,对应的职位的需求是什么,一般来说你就会对应该掌握的知识架构有初步的了解。你可以去看看数据分析师职位,企业对技能需求可总结如下:
SQL数据库的基本操作,会基本的数据管理;
会用Excel/SQL做基本的数据提取、分析和展示;
会用脚本语言进行数据分析,Python or R;
有获取外部数据的能力加分,如爬虫或熟悉公开数据集;
会基本的数据可视化技能,能撰写数据报告;
熟悉常用的数据挖掘算法:回归分析、决策树、分类、聚类方法;
高效的学习路径是什么?就是数据分析的流程。一般大致可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据可视化”这样的步骤来实现一个数据分析师的学成之旅。按这样的顺序循序渐进,你会知道每个部分需要完成的目标是什么,需要学习哪些知识点,哪些知识是暂时不必要的。然后每学习一个部分,你就能够有一些实际的成果输出,有正向的反馈和成就感,你才会愿意花更多的时间投入进去。以解决问题为目标,效率自然不会低。
按照上面的流程,我们分需要获取外部数据和不需要获取外部数据两类分析师,总结学习路径如下:
1.需要获取外部数据分析师:
python基础知识
python爬虫
SQL语言
python科学计算包:pandas、numpy、scipy、scikit-learn
统计学基础
回归分析方法
数据挖掘基本算法:分类、聚类
模型优化:特征提取
数据可视化:seaborn、matplotlib
2.不需要获取外部数据分析师:
SQL语言
python基础知识
python科学计算包:pandas、numpy、scipy、scikit-learn
统计学基础
回归分析方法
数据挖掘基本算法:分类、聚类
模型优化:特征提取
数据可视化:seaborn、matplotlib

热心网友 时间:2022-04-10 23:43

因为每个人的情况不一样,我只能举几个例子来帮助大家理解。
第一个例子,比如说某一些同学,他已经学了商业的课程,但是他对数据编程包括如何利用数据进行分析不了解,那他就必须学一些基本的入门的sql和python课程,同时有一些实训项目的辅助下,能够灵活地运用sql和python去连接数据库,将数据获取出来进行清洗和分析,并且得出一个结论。这样他就能知道他是如何能够在商业环境当中,利用数据帮助企业来提升绩效。
第二个例子,也许你是从IT背景学习出来的,对编程还是比较了解,在其他方面了解的不多,那他也是需要一些实训的项目,通过一些实训的项目将整个代入到工作的环境当中,对工作中碰到的所有问题在实践当中是如何操作的进行培养和介绍,了解到这个程序之后,就自然会知道在某一个行业某一个企业他是如何进行数据分析的。
那么类似的案例非常多,很多的人需要有一个对自己所具备的能力和职位所需要的能力之间的一个匹配,来发现自己缺哪部分的技能进行有的放矢地学习。

热心网友 时间:2022-04-11 01:35

借助工具,魔方是一款大数据模型平台,是一款基于服务总线与分布式云计算两大技术架构的一款数据分析、挖掘的工具平台,其采用分布式文件系统对数据进行存储,支持海量数据的处理。采用多种的数据采集技术,支持结构化数据及非结构化数据的采集。通过图形化的模型搭建工具,支持流程化的模型配置。通过第三方插件技术,很容易将其他工具及服务集成到平台中去。数据分析研判平台就是海量信息的采集,数据模型的搭建,数据的挖掘、分析最后形成知识服务于实战、服务于决策的过程,平台主要包括数据采集部分,模型配置部分,模型执行部分及成果展示部分等。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com