你的位置：| 新华网权威 > 政策解读 > IntaLink——区别于大模子的收场NL2SQL全新技艺

IntaLink——区别于大模子的收场NL2SQL全新技艺

发布日期：2024-11-05 06:29 点击次数：141

一 IntaLink的平庸应用场景

布景转头：前述著述中说起“IntaLink的野心是收场数据集成领域的数据自动关联”。从文中不错看到，IntaLink责罚的是“关连型数据、多表”自动关联的问题。

咱们刻下商量一下，这个问题是否具有平庸的应用场景？如故一个莫得实质需求的伪命题？

01关连型数据还是最紧迫的数据金钱之一

天然刻下大模子、大数据平台等技艺粗略使用更多类型的信息，包括文档、图片、音视频等，如多模态生成式东说念主工智能，不错文生视频、语音交互。由于生成的完毕多数是属于洞开式、主不雅性的意志，恐怕还存在“幻觉”。是以用于鉴戒或者支持责任是莫得问题的。而在一些必须严谨的责任场景，咱们弗成基于这些信息以及大模子来完成责任任务。如银行、金融证券、交通讯息、交游、财务、坐蓐、动力等领域，中枢的业务数据，必须用结构化的关连型数据进行照应。

2 数据树立势必是踱步的

（1）关连型数据库的瞎想范式就要求数据要进行合理的拆分，幸免数据存在大批的冗余。在数据树立阶段产生的数据，如若数据有大批的冗余，不仅仅数据累积责任量重迭，数据的一致性也难以保险。咱们从另一个角度来讲，假定关联数据都放在一个数据表中了，而由于这些数据项并不是开首于褪色个业务，累积东说念主、数据产生时候也不同，这么的数据纪录无法保重。是以在数据树立阶段，一定会将数据按照面向对象、以业务举止为单元来组织数据。行将数据踱步到不同数据表中存储。

（2）数据一定是开首于多系统。由于信息化树立责任不是一蹴而就的，一定会有树立的先后司法。即使褪色套系统内，也可能会有试验的先后司法。另外，咱们还要看到不同的应用场景需要不同的技艺选型，如业务数据、及时数据、日记信息等，会禁受不同的技艺妙技来收场，是以数据一定具有多开首性。

3 集成是弘扬数据价值的最灵验妙技

数据一定会需要集成应用。数据集成应用的需求有多样可能性。如坐蓐数据和策划数据集成，取得策划完成情况；坐蓐数据和销售数据集成，不错判断是否有家具积压，或者是不骄气定单委派；坐蓐数据与财务数据集成，不错判断坐蓐老本与盈利情况。因此，数据集成是收场数据价值最大化，为业务赋能的最灵验道路。

综上，关连型数据的集成应用，在改日很长一段时候内，仍然是最紧迫的数据应用场景。而惟有这个场景存在，IntaLink就有着平庸的稳妥性。

二 IntaLink与东说念主大模子的数据集成能力对比

T2SQL（Text to Sql）、NL2SQL(Natural Language to SQL)便是通过文本输入或者是天然谈话输入，自动生成适合要求的数据查询。T2SQL这两种叫法实质上都是通过东说念主工智能技艺字据对语义的领路，疗养成数据操作能力，是褪色观念，仅仅名称不同。这是东说念主工智能在数据应用的一个接洽场所。频年来，跟着大模子技艺的出现，这一接洽领域又得到了较大发展。笔者接洽了阿里、腾讯的一些技艺回报，也试用了开源名目DB-GPT。这些技艺大同小异，至少底层的技艺逻辑是一致的。而IntaLink与这些技艺收场的念念路皆备不同。

咱们暂不存眷底层技艺逻辑，从收场能力对二者进行对比分析：

1、期骗大模子技艺收场数据自动查询，需要用数据磨真金不怕火

咱们不错假定有一组数据表，数据表名鉴别为T1、T2、……Tn，每个数据表中有若干个数据项，鉴别为C1、C2、…Cn，各数据表中所具有的数据项个数不等。咱们给定一个数据表T1的模拟数据，如下所示：

单从上头给定的内容，咱们其实得不到任何可用的信息。不明晰上头的数据代表的是什么意旨。咱们底下模拟给定两种数据意旨：

咱们不纠结上头数据的合感性，以及是否确凿有这么的数据表。但从示例中不错看出，如若不睬解数据表和数据项的意旨，数据是无法应用的。弗成将数据应用需求关联到数据上，更谈不到更复杂的数据操作能力了。

咱们以测试NL2SQL的一个数据集为例，诠释大模子技艺在此领域的应用口头。

Spider数据集是多数据库、多表、单轮查询的T2S数据集，亦然业界公认难度最大的大领域跨领域评测榜单，由2018年耶鲁大学漠视，由11名耶鲁大学学生标注。其中包含了10181个天然谈话问题，5693个SQL语句。触及138个不同领域的200多个数据库。7000个问题用于磨真金不怕火，1034用于开辟，2147用于测试。也便是说通过给定问题以及问题的谜底（SQL）,让大模子领路数据的使用能力，然后再字据磨真金不怕火后的模子去使用数据。为了轻便领路，咱们不错简化成这么的逻辑：

问题1：库存红色的口红还有几许支？

谜底1：

select amount from warehouse where good_name=’slipstick’ and color=’red’…….

当用这么的数据集磨真金不怕火完模子后，咱们漠视这么的问题：

测试问题：库存里还有几许只蓝色的口红？

输出谜底：

select amout from warehouse where good_name=’slipstick’ and color=’blue’

从上头咱们不错看出，NL2SQL更强调的是字据磨真金不怕火数据集，磨真金不怕火大模子后，在应用中，通过对语义和高下文的领路，基于已有的意志，推导出可能的SQL。

那么咱们反过来看，这种技艺在实质应用中会有诸多收尾：

1）应用前需要较多的输入，如若莫得弥散多的磨真金不怕火数据，大模子亦然无法将天然谈话输入疗养为数据操作的；

2）磨真金不怕火出来的模子无法使用新数据（是指范围，不是指纪录），如若新加多了一个可用的数据资源，已有的磨真金不怕火完毕是无法领路和使用的；

3）准确度不及以撑抓笃定性的应用，刻下只可作念为支持妙技。在已知数据集下，经由磨真金不怕火和调优，准确度频繁也就在80%~90%之间。

笔者觉得，这种技艺刻下只可适用于数据内容笃定，应用能力笃定的场景。即使有好的应用效果，其上风亦然在对天然谈话的领路，以及生成式内容。并不是数据集成能力。

2、 IntaLink的数据集成能力

IntaLink的数据集成，不需要用户给定任何磨真金不怕火数据。数据之间的关连，是通过表间关连分析模子生成的。这种关连的生成不需治安略数据表和数据项的实质意旨，而是通过一组能力，基于数据的特征值进行分析，推导出数据表间的关联关连。底下咱们也用两个示例数据表诠释表间关连的成立能力。

Tab_1

Tab_2

咱们不错看到Tab_1中的Student_ID和Tab_2的XH，具有相似的数据特征值，是以如若要关联使用这两张数据表，就有Tab_1.Student_ID=Tab_2.XH关联条目的成立。

天然这种表间关联条目的分析，需要筹商的问题比拟多，咱们在IntaLink中以复刻的数据特征值内存数据库为分析妙技，禁受一组优化的分析能力，造成了表间关连分析完毕。由于触及到的内容比拟多，此处不张开商量。后续会单开一篇著述，论说其收场的逻辑。

由此，咱们不错看到IntaLink与大模子技艺收场NL2SQL的不同：1）不需要准备磨真金不怕火大模子的问题集，是通过数据分析取得数据之间的逻辑，是以IntaLink不错适用于平庸的数据范围。当可集成的数据越多时，其上风越大。2）侧重于数据的集成，即数据集成时关联条目的生成，而关于数据的使用能力并不存眷。注：数据集成存眷的是如何成立多表之间的数据关联关连，而数据的使用能力可能有多种，如乞降、计数、平均值、最小值、最大值、……。NL2SQL会字据语义登第合适的数据操作能力，如SUM、COUNT、AVG、MIN、MAX、……。3）准确度高，如若抛开数据质料的问题，IntaLink生成的数据关联关连，准确度在表面上不错达到100%。

三 IntaLink与大模子技艺筹商的可能性

大模子技艺在语义的领路上，以及生成式内容方面具有较强的上风。而IntaLink在数据关联分析方面具有前置责任量少、准确度高的上风。IntaLink在数据集成时，需要用户潜入输入需要应用的数据表和数据项，以及由用户在应用中自行收场数据的应用能力。盼望的现象是，期骗大模子技艺，领路用户输入的需求，将用户输入信息，疗养为需要应用的数据表和数据项。将笃定的数据表和数据项内容传给IntaLink，由IntaLink生成用户所需的数据集，再由大模子的生成式技艺，以合适的后果，如报表、弧线、文档回报等，展示给用户。

上一篇：10月31日基金净值：南边中证申万有色金属ETF最新净值1.0363，跌0.37%
下一篇：5G抽象杆与奢睿交通的深度会通，共创奢睿城市

让建站和SEO变得简单

IntaLink——区别于大模子的收场NL2SQL全新技艺