蓄财网(www.aixc.cn) 首页 SEO技术 查看内容

      Schema.org核心信息模型 第一部分:Schema.org信息模型简介

      2021-3-30 11:17| 发布者: admin| 查看: 22| 评论: 0

      摘要: 随着人工智能(AI)和认知计算的兴起,对其他计算机可以轻松理解的结构化数据格式的需求日益增长。为了满足这一需求,2011年,一群搜索引擎公司和大型Web发布者创建了一个名为Schema.org的计划,用于描述Web页面实际 ...
      随着人工智能(AI)和认知计算的兴起,对其他计算机可以轻松理解的结构化数据格式的需求日益增长。为了满足这一需求,2011年,一群搜索引擎公司和大型Web发布者创建了一个名为Schema.org的计划,用于描述Web页面实际上所涉及的对象。

      在这个由四部分组成的系列文章中,我将向您介绍Schema.org,并向您展示如何使用它来创建更多可搜索的网页。在第1部分中,我首先解释该项目的历史。

      Schema.org的好处
      首先,让我们看一下Schema.org的一些好处。为什么要在页面上添加Schema.org标记?最重要的是,这样做将使您的页面更易于访问,并且更容易为搜索引擎,AI助手和相关的Web应用程序找到。您无需学习任何新的开发系统或工具即可在几个小时内广泛使用该标记。其他好处包括:

      帮助上下文搜索。搜索引擎公司和专家越来越多地根据特定兴趣而不是通过笼统的搜索词来指导用户。他们正在理解意图并显示可回答用户意图的内容。用户在购物吗?想看电影吗?寻找解决技术问题?如果使用Schema.org标记,则允许搜索引擎根据上下文功能包含您的网站,如果它们是通过语音或在移动设备上进行搜索,则更是如此。
      信号更新,质量含量。在提高搜索引擎排名方面,无可替代的是创建优质的内容以及培养指向您内容的合法链接。但是,使用Schema.org标记信号向搜索引擎表明您的内容已经很好地更新并且质量很高。
      提高点击率。当您的Schema.org丰富的网站确实出现在搜索引擎排名中时,它们就会使用列表的现代上下文功能(称为丰富代码段)来显示。丰富的摘要在其他搜索结果中脱颖而出,从而提高了用户的点击率。
      提高内容的可维护性。在计划站点的内容时,许多人会忘记对过期或无关的内容进行计划。具有包含Schema.org标记的页面可以更轻松地识别这些页面并在过渡期间实施计划。添加Schema.org标记使开发与现有页面配合使用的工具并将其合并到后续站点和软件项目中变得更加容易。它还使您可以更轻松地与合作伙伴根据现有站点在新的联合项目上进行合作。
      眼球首页
      在网络的头几天,您想看到的所有内容都在主页上。这些最初的网页就像固定在公共板上的个人公告,但带有超链接。目的是让人们看页面。

      不久之后,Mosaic浏览器就可以在文本之间嵌入图像,这使Web对用户更具吸引力。嵌入式媒体对象打开了音频,视频和应用程序对象的大门。很快,除了信息和通信之外,其他行业也开始使用并最终主导网络。

      与使用通用语言相比,我们自动化的实用性要差一些。网络似乎是一个令人难以置信的创新场所,但是我们错过了更多的可能性。

      随着Internet上数据的爆炸式增长,迅速有必要对内容进行分类和标记,以便人们可以更轻松地找到他们想要的信息。

      早期的网络发明者希望在网络上更广泛地传播组织工具。在1990年代,有关“数据网络”技术的工作开始了。对网络数据的最初预测是宏伟的。Tim Berners-Lee爵士和他的同事在2001年5月在《科学美国人》杂志上发表的名为“语义网”的故事阐述了他们对一种新技术的雄心壮志,该技术将为网络上的数据提供通用语言,从而使自动化变得更加容易。

      尽管现在已经实现了许多这种自动化的设想,但这主要是由于大型搜索引擎和科技公司对大量数据进行大量处理而取得的非凡成就,而不是因为网络数据的通用语言曾风起云涌。结果,我们现在拥有的自动化功能没有通用语言时有用。网络似乎是一个令人难以置信的创新场所,但是我们错过了更多的可能性。

      Schema.org的到来将使语义网的希望变为现实。通过大公司的努力,现在即使是小公司也可以从中受益。

      RDF,链接数据,微格式等
      在2000年,我写了一篇针对IBM Developer的文章,“ RDF入门”,解释了万维网联盟(W3C)提倡为网络数据提供通用语言的技术。资源描述框架(RDF)是用于在Web上对数据建模的一组规范,以使自治代理更容易工作,并改善搜索引擎和服务目录。RDF最初被认为是一种用于在Web上表达数据位的简单模型。

      不幸的是,W3C最终在RDF(包括成熟的AI设施)之上堆积了如此复杂的规范,以至于对于如何将语义Web简化为通常的Web开发人员可以轻松学习的东西一无所知。

      语义网夹心蛋糕


      为了抵消这些复杂的规范,一项名为“链接的开放数据”的倡议开始推动一套简化的原则。该名称简称为“链接数据”,因为很明显,这些原则甚至对企业和私人环境也很有用。链接数据基本上建议使用HTTP URL而不是纯文本字符串来标识事物,并建议使用诸如简单RDF之类的约定为所标识的事物提供相关信息。例如,此信息可能包含使用纯文本字符串的标签。

      最初,此元数据是与网页本身分开提供的,但是Web开发人员很快就提倡使用简单的HTML约定对网页中的元数据进行编码。这些被称为微格式。

      所有这些发展在2011年进入Schema.org历时10年。高意识的语义网被简化为Linked Data,同时使用微格式技术消除了对单独文件表示的需求。

      您网页的信息模型
      那么,这对当今的Web开发人员意味着什么呢?一方面,这意味着您必须问:“我的内容实际上是关于什么的?”

      假设您维护一个读书俱乐部的网站。您的网页是关于什么的?它们可能是关于书籍,会议和成员的,您可以通过一系列常规描述来描述这些东西。例如:

      用书名,作者,ISBN,封面图像等描述书籍。
      会议根据时间/日期,地点和与会者进行描述。
      成员按照其姓名,联系信息和照片进行描述。
      一个人可能是俱乐部的成员,也可能是书籍的作者。在这种情况下,成员描述中的某些元素可以与作者共享。考虑到这一点,您可以将描述俱乐部的数据可视化,类似于在面向对象编程中找到的数据组织类型。

      图2显示了此思维导图的一部分,在其中组成了我所谓的Geo Book Club。

      读书俱乐部原始信息模型


      那么,我们在看什么呢?

      网络资源
      椭圆是Web资源(有点类似于面向对象的实例)。关于这种心态的最重要的事情是,您对URL的描述与您对它们提供的内容所做的描述一样多。http://example.com/geobookclub是Geo Book Club的网站。在这种模型中,我也认为它是一个东西,即俱乐部。在资源类型描述型的事,这是,我用大写字母领先的线表示该情况图所示。

      资源类型组织与特定事物关联的属性的约定。例如,某人不会与ISBN相关联。资源类型可以控制数据模式,从而使应用程序更有效地理解数据。

      人际关系
      箭头显示对象之间的关系或链接。重要的是,标记您希望提升为显式关系的每个链接。您不只是说“东西掉了”这本书与“ Chinua Achebe”这个人有关。取而代之的是更具体:“事物分解”这本书是由“ Chinua Achebe”人撰写的。因为一本书可能还有其他相关人员,例如编辑或插图画家,所以标记特定的关系可以帮助Web应用程序准确地处理数据。

      有时,关系的价值只是文本,而不是其他Web资源。该图将它们显示为矩形,它们称为文字。文字也可以是数字,日期,布尔值和其他种类的基本数据。

      无关的信息
      云形状只是本教程不需要的详细信息的便捷标记。我用它们来表明一个俱乐部可以举行多个会议,但是在本系列中,我们只关心第二个会议的细节。云旨在表明可以有多个会议,每个会议都有单独的关系。

      您可以想象一种使用某种容器对象对此进行建模的方法,例如说“成员身份”来保存成员,或者说“时间表”来保存事件。但是,容器很快变得复杂。Schema.org强调简单性,因此约定通常只表示一个关系的多个实例。

      书的封面是一个有趣的特例。一方面,它是链接到图像文件的Web URL。Schema.org允许您在关系中包括不同种类的Web URL,包括图像和其他非文本媒体对象。也没有指定资源类型。在诸如此类的少数情况下,尽管Schema.org确实提供了一种在需要时表达这种媒体关系的更彻底的方法,但是您可以让关系承担重担。

      RDF版本的模型
      如果上述模型对您有意义,那么您已经足够了解RDF,可以开始使用Schema.org。请记住两个注意事项。

      所有关系都必须是URL,而不仅仅是简单的字符串,例如“ member”和“ author”。这些在RDF中被正式称为谓词,但是Schema.org使用术语“属性”,并为其定义的每个属性提供一个网页。这样,一个人,甚至一台机器,都可以转到关系的URL并看到可读的描述。
      资源类型使用特殊的RDF谓词表示http://www.w3.org/1999/02/22-rdf-syntax-ns#type,通常缩写为rdf:type。此关系的值称为RDF类。
      图3显示了Geo Book Club模型的一个子集,说明了完全表达的谓词和类型/类关系。您可以想象,如果我将所有数据都放在整个图中,那将会是多么混乱。

      带有完整RDF谓词和类型信息的预订俱乐部信息模型代码段


      没有专门用于读书俱乐部的Schema.org类,因此我将其用于组织。顺便提一句,Schema.org并非旨在提供每个人都希望在网络上表达的任何内容的全面模型。但是,如果足够多的读书俱乐部组织者聚在一起,并决定提出Schema.org扩展以满足他们的需求,那么他们最终可能会将它们纳入核心Schema.org模型。粗略的共识和实际使用是Schema.org演进中最重要的驱动力。

      将模型拟合到Schema.org
      下图显示了符合Schema-org的模型。我使用两个缩写来减少混乱:

      RDF中的URL缩写约定:URL的前缀,冒号和结尾。http://www.w3.org/1999/02/22-rdf-syntax-ns#type变rdf:type和http://schema.org/member变schema:member。
      资源类型缩写:第二个缩写是在资源标识符本身下面的括号中指定资源类型。
      读书俱乐部Schema.org信息模型


      除了对的更改之外schema:Organization,还有另一个词汇更改与Schema.org相匹配。该cover之间的关系给出schema:image。

      Schema.org支持类继承功能,类似于您可能从面向对象的编程中了解到的那样。它具有一个祖先类schema:Thing,所有这些类都派生自该类。

      Aschema:Organization是的子类schema:Thing。
      schema:Book是其子类,schema:CreativeWork而子类又是schema:Thing
      甚至属性都是的子类schema:Thing,但这有点奥秘。

      更有趣的是,Schema.org充分利用了类似于子类的子属性。例如,Schema.org模型没有直接指定schema:isbn为上的公认属性schema:Book。而是指定schema:identifier。但是,有几个子属性schema:identifier,包括:

      schema:sku
      schema:flightNumber
      schema:isbn
      这些不同种类的标识符在特定上下文中很有意义。

      子属性遵循Liskov替换原理,您可能会从面向对象的编程中记住这一点。从根本上讲,这意味着您可以用任何子属性替代其父属性。因此,由于schema:identifier可以识别schema:Book,您可以自由替换schema:isbn,就像我在Geo Book俱乐部示例中所做的那样。

      结论
      如果您运行一个网站,则已经处理了有关网页外观和行为的模型和框架。定义内容的含义,尤其是描述网站中讨论的内容,变得越来越重要。Schema.org提供了一个越来越流行的框架来表达这种信息。

      在这一部分中,您学习了如何创建向Schema.org迈出第一步的模型。现在您已经了解了此处描述的基于Schema.org的图,现在可以在自己的HTML网页中实现此模型了。这样做有几种语法选项,我将在下一部分中介绍这些选项。

      鲜花

      握手

      雷人

      路过

      鸡蛋

      相关阅读

      QQ|Archiver|手机版|小黑屋|蓄财网 ( 豫ICP备2021002293号 )

      GMT+8, 2021-9-14 12:02 , Processed in 0.079679 second(s), 31 queries .

      蓄财网 ©版权所有

      © 2021 蓄财网(www.aixc.cn)

      返回顶部