1 非结构化

截止目前，笔者在建模方面的经验主要有电商评论—虚假电商评论检测，如我们在网上面进行购物时，会参考其商品的评分，评价，通过汲取其他人的购买体验，来作为是否购买的一个加权，也因此很多不良商家，为了提高知名度和消费量，会存在恶意刷好评的情况，错误的引导消费者。为了更细致的了解其运作模式，笔者也曾“卧底”了一回—为某个卖服装的代写好评，后续断断续续追踪半个月，发现其成交量出现了稳步增长，具体是虚假交易，还是由虚假交易引起口碑影响力带动真消费，不再探究。也因此笔者觉得虚假评论的检测具备一定道德层面的积极意义。

在电商评论中，获取的数据为文本型数据，通过传统的主题模型等机器学习方法可以对之进行主题-词的抽取，进而获取相关的核心主题进行进一步的建模。同时，较之于数值型数据，文本数据无法直接被电脑读取，需要转化为数值型格式，这里提及一些方法可供参考，LDA主题模型，可以获取每个词的概率值，虽然限定了特定主题和特定文本，但是某种程度上也可以使用进行文本数值化；Word2vec（WordEmbedding），谷歌公布的文本向量化包，可以对文本进行向量化处理，但是Word2vec更多是也是对于词袋模型中的词进行处理，在进行上下文的联动上存在一定的不足之处，这也就致使了另一项更加强大的词向量化工具Bert应运而生。

对于文本数据，有一个很有意思的研究趋势是“大”，如微软和英伟达近期联合推出的迄今为止最大和最强的语言模型—Megatron-Turing (MT-NLP)，该模型包含5300亿个参数，几乎等同于人的神经个数，据表述，该模型在预测，阅读理解，常识论证，自然语言推理，词义消歧等自然处理领域具备优越的性能。笔者惊艳其模型的规模与性能，同时也有点小小的思考，人工智能模型本身存在难以解释的不足，当模型规模扩大，效果提升到一定水平，是否就可以不需要解释了呢？

2 结构化

很多报告说现在存在很多的单身男女，我觉得怎么会呢？手机，自发布到目前2021年，已经成为我们新的老婆（老公），从工作到生活，形影不离，忠贞不渝。笔者曾出差4天，说想念媳妇到茶饭不思那是不可能的，生活依旧，然而某天手机以外跌落地上，致使手机无法使用，在网购等待的一天里，我经历了焦虑，恐慌，无所是从，手足无措等等，真没了“媳妇”，是否部分伙伴和我一样，是否由此可以推断，手机已经成为了我们生活所需的基本要素，而手机正常运作的一项基础-网络通讯是否也已经成为我们生活中无法割舍的一部分。

因此对结构化数据建模的一个分析，就以通讯行业为例，虽然是以前从事的工作内容，但是考虑到曾作为一名该行业员工的规范性，此处和下面的制造业建模均不过于深入和具体描述。在通讯行业中客户的信息均以固定的形式存储在数据库中，通过使用传统的机器学习算法如贝叶斯网络，决策树（可解释性高）可以对之进行建模，而在2018年左右大火的深度学习技术如LSTM等，也可以应用于其中，提高模型的准确率，进而在业务赋能的过程中添砖加瓦，然而根据笔者的行业经历，在使用LSTM对结构化数据进行建模过程中，其准确率较之于传统的机器学习方法虽然能提高至少10%的准确率和预测成功率（业务检验），但是对之于一些触及决策性质或者需要解释性强的业务问题，LSTM就显得爱莫能助，只能求助于传统的可解释性强的决策树，贝叶斯网络和基于经验规则的建模。因此，如何构建可解释透明的深度学习模型就显得愈发重要，这也是当前科研领域正在破解的难题之一。

3 制造业

对于诸葛亮，有这样一句话描述，“运筹”帷幄，决胜千里之外。而在现代，“混合整数规划”，亦有“运筹”帷幄职之能。这里的运筹，我们简单理解为运筹学，包含诸如普通线性规划，整数规划，混合整数规划，蚁群算法，遗传算法等，而对于现代工厂，企业而言，其复杂的业务系统，一般需要使用混合整数规划来进行建模。

因此对传统制造业建模而言，同结构化数据建模和非结构化数据建模又有所不同，在传统制造业中，资源是限定的，市场需求是需要满足的，而从资源到市场中间所触及的原材料到成品的过程是复杂和高度相关的，这就限制了传统机器学习，以及现如今比较火的深度学习的使用，一个国内发展尚还弱小，但是很必要的学科就发挥了作用—运筹学，目前笔者主要接触的是使用混合整数规划对其进行建模，触及分支定界，启发式搜索等算法，存在多目标求解，NP-Hard等诸多调整和问题，时间复杂度和空间复杂度是一个绕不开的坎，现实情况下，约束较多，基础数据量大，致使问题规模甚至会上升到百亿级别，出现有限时间内无法求解的情况，即使通过一定的处理，也会存在求解时间过久的问题，这在实际使用上就显得略为鸡肋，对于混合整数规划建模来讲，解释性强，业务建模契合度更高，在硬件固定的情况下，如何通过算法改善时间和空间复杂度呢？因此如何在保障贴合业务需求的基本要求下，巧妙的设计模型框架也显得尤为重要。

4 综述

非结构也好，结构也好，运筹建模也好，都是现代数字化建设的要求，虽说业务不同，领域不同，但都是通过对业务赋能，达到降本，增效，创收的目标。算法之路漫漫，笔者学时有限，欢迎各位大佬指教。

-END-

本文系作者：一个数据人的自留地授权发表，鸟哥笔记平台仅提供信息存储空间服务。

本文为作者独立观点，不代表鸟哥笔记立场，未经允许不得转载。

《鸟哥笔记版权及免责申明》如对文章、图片、字体等版权有疑问，请点击反馈举报

关键词

统计学

主数据

业务