AI是助手?还是“侩子手”?
作者:微信文章bear down menacingly来势汹汹
01
铺天盖地的AI
你有没有当在夜深人静的时候,辗转反侧,面对AI的来势汹汹,作为普通人如何在这一波的科技浪潮中去寻找自己的一叶扁舟。节前Deepseek横空出世,仿佛一夜间犹如春晚的小品走进千家万户。上班的地铁上,中午的小餐馆,晚上的小广场,随处可见、随处可听人们讨论着各种AI工具以及对未来的担忧。在如今数据时代,正是得益于海量的各种数据,AI技术得以快速成长,迅速进入我们日常工作、生活之中。
02
特殊的“虫子”吗
说到数据,很多人都听说过“爬虫”,它是什么?一种特殊的虫子吗?其实我们每天都在使用它,百度、必应、谷歌等搜索引擎都可以理解为是一种爬虫,在日常的工作生活中利用搜索引擎去搜索我们需要的各种数据。但很多时候,面对大量的、繁杂的搜索数据,我们又该如何处理?数据背后的秘密真的如同表面那样吗?
03
强大的AI
数据挖掘可以展示我们数据背后的世界。当你打开抖音时,它的首页总是出现我们喜欢的内容,同时还伴随着“不经意”的广告,这就是抖音背后的算法工程师通过我们使用抖音的行为数据进行数据挖掘而做出的决策,如今这些工作很多都被AI取代了。
拥抱数据
破局之路
说到这里,聪明的你有没有一点对未来的想法呢?尽管AI很厉害,表现的像个超人一样,但是它只能按照被设定的程序一样,不能特定的收集数据和利用数据,在如今的AI浪潮中,我们要去主动“拥抱”数据,去了解数据背后的秘密,去创造成功的价值,这个过程中AI充当的是我们的助手,而不会变成我们恐惧的“侩子手”。如果我们依然停留在仅仅产生数据的阶段,不去走向数据,那么我们很可能成为”新时代的弃儿“。
修炼基础
因此,面对AI的来势汹汹,和大家一样,作为一名数据领域的小白,在往后的日子里,为了在AI的浪潮中去打造自己的一叶扁舟,也在努力的转向数据。今天,就让我们先从了解爬虫开始吧,学会了它,你就可以按照快速的收集自己需要的特定的数据。爬虫,简单而言就是我们通过编写程序去模拟我们上网的行为去互联网上爬取特定数据的过程。
注意注意注意
在法律中不被禁止,但具有违法风险,因此我们在使用当中要特别注意不能干扰网站正常运行,也不能获取隐私敏感信息。
爬虫基础知识(序)
http协议:就是服务器和客户端进行数据交互的一种形式。很多人应该和小白一样都看过“智取威虎山”,杨子荣”拜山头“时使用”黑话“,座山雕才会与他交流,否则就没有那段经典的剧情了—天王盖地虎,宝塔镇河妖。他们之间的 ”黑话“就相当于两人之间交流采用的”http协议“。
接下来,我们继续了解下”http协议“常用的一些内容:
常用的请求头信息
User-Agent:请求载体的身份标识。
Connection:请求完毕后,是断开连接还是保持连接
常用的响应头信息
Content-Type:服务器响应客户端的数据类型
https协议:安全的超文本传输协议
requests模块
python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高
作用:模拟浏览器发请求
爬虫步骤
指定URL
发起请求
获取响应数据
持久化存储
今天一起学习了爬虫的基础知识,什么是爬虫?爬虫是违法吗?爬虫的基础知识和步骤,下次和大家将一起实战,编写第一个爬虫小程序。
页:
[1]