中文博客 on Zeqiang Fang | 方泽强

如何优雅地统计代码提交行数

Sat, 25 Mar 2023 00:00:00 +0000

背景

组织数字化离不开人事物，人推动事产生物，如何帮忙看清人做了哪些事情，产生了哪些物是数字化中重要的课题；今天这里要介绍的就是如何帮助组织看清技术人员在做研发工作时产出了多少代码

挑战

许多代码平台也许就自带代码统计结果，比如github, gitlab等在产品层面就带有这种统计结果提示，有点类似word里提醒你写了多少字符；但有的平台就没有这种功能，比如大数据处理平台dataphin，在接入数据源的时候本身只有提交日志数据，含有版本号，提交文本，并没有直接有效准确的代码行数统计结果，这里就需要我们做相应的统计计算和数据处理，来将研发人员在这一平台的行为进行度量计算

对策&方案

数据准备

如何把新老版本处理为一行中的两列，为列运算做前序准备呢？

with dataphin_table as (
    select   job_id
            ,work_no
            ,ver_num
            ,context
            ,row_number() over(partition by job_id, work_no order by  ver_num desc) as ver_ord
)
select py3_udf(t2.context,t1.context) as code_diff_num
from dataphin_table as t1
left join daaphin_table as t2
on t1.job_id = t2.job_id
and t1.work_no = t2.work_no
and t1.ver_ord = t2.ver_ord - 1

统计功能

如何进行6中细分口径的代码行数统计呢？

这里采用differ方法进行不同点打标的方法，再通过统计打标数来统计行数

import difflib as dl
d = dl.Differ()

以下分为三个模块进行详细展开，分别是空值与注释，修改与新增，以及删除

空值&注释

首先为了保证统计的准确性，我们需要构造过滤空行和注释的方法（如下），比较简单主要是常规的数据处理方法，先使用strip()去除首尾空格，再通过空格去分离代码行，最后针对每个分离过的代码行进行注释行的打标与过滤

import re
def remove_empty_and_comment_lines(sql_code):
    """
    从SQL代码中删除空行和注释行，返回非空行的列表
    """
    non_empty_lines = []
    lines = sql_code.strip().splitlines()
    for line in lines:
        line = re.sub(r"--.*", "", line).strip() # 使用正则表达式删除注释
        if line:
            non_empty_lines.append(line)
    return non_empty_lines

那么如何统计出空值&注释，让这两个指标也纳入量化范围，看清空值和注释在代码中的占比呢？首先来看看空值的统计吧，这个比较简单（如下）

class sql_code_blk_line(object):
    def evaluate(self, arg0):
        empty_cnt = 0
        # 消除前后空行，使得空行变得真空
        text_arr = [x for x in arg0.strip().splitlines(keepends=False) if not x.isspace()]
        for i in text_arr:
            if not i.strip():
                empty_cnt += 1
        return empty_cnt

再来看看注释统计的办法，这里的使用场景以SQL为例子，SQL语句中一般都是以--开头来进行注释，我们就可以采用startswith()方法进行注释行的判断

class sql_code_cmt_line(object):
    def evaluate(self, arg0):
        cmt_cnt = 0
        # 消除前后空行，使得空行变得真空
        text_arr = arg0.strip().splitlines(keepends=False)
        for i in text_arr:
            if i.strip().startswith('--'):
                cmt_cnt += 1
        return cmt_cnt

新增&修改

如何统计代码实际新增与修改数量呢？这里将Differ实例化移动到初始化函数中，以避免在每次调用 evaluate函数时都重新实例化；并且使用sum 函数和生成器表达式来计算新增行数，让语句更为简洁

class SqlCodeDiff:
    def __init__(self):
        self.differ = difflib.Differ()  # Differ 实例化前置

    def evaluate(self, sql_code1, sql_code2):
        """
        比较两个 SQL 代码字符串，并计算其中新增和修改的代码行数。
        """
        lines1 = remove_empty_and_comment_lines(sql_code1)
        lines2 = remove_empty_and_comment_lines(sql_code2)

        diff = list(self.differ.compare(lines1, lines2))
        added_lines = sum(1 for line in diff if line.startswith("+"))  # 计算新增行数

        return added_lines

那么如何单独统计代码实际新增数量呢？这里抽象出来新增行数的计算逻辑，使用常规的for循环遍历diff结果，并对每一行判断其是否为新增行，以统计新增行数

class SqlCodeAdd:
    def __init__(self):
        self.differ = difflib.Differ()

    def evaluate(self, sql_code1, sql_code2):
        """
        比较两个 SQL 代码字符串，并计算其中新增的代码行数。
        """
        lines1 = remove_empty_and_comment_lines(sql_code1)
        lines2 = remove_empty_and_comment_lines(sql_code2)

        diff = list(self.differ.compare(lines1, lines2))
        added_lines = count_added_lines(diff)

        return added_lines

def count_added_lines(diff):
    """
    统计 diff 结果中新增的代码行数。
    """
    added_lines = 0
    for line in diff:
        if line.startswith("+"):
            added_lines += 1
    return added_lines

那么又要如何单独统计代码实际修改行数呢？这里涉及到一个Python优化点迭代思维，尽量避免在循环中使用列表索引，比如range(1, n)这样的写法然后通过result[i] 访问列表中的元素，在性能和可解释性上都没那么完美。不妨（如下）使用 Python 内置的 zip函数将两个列表打包成一个可迭代对象，然后在循环中使用这个可迭代对象进行遍历，可以大大降低计算复杂度。

并且考虑到Python3本身（布尔表达式的短路特性）出于性能和可读性考量尽量使用result[i][0]=='?' and result[i-1][0]=='+' 而非 (result[i][0]=='?') & (result[i-1][0]=='+') 来避免不必要的位运算

class sql_code_mdf(object):
    def evaluate(self, arg0, arg1):
        v1 = flt_empty_comment_line(arg0)
        v2 = flt_empty_comment_line(arg1)
        result = list(d.compare(v1, v2))

        modify_cnt = 0  # 用于计算修改行数
        n = len(result)

        if n > 1:  # 大于1行的代码才进入细分判定
            for cur, prev in zip(result[1:], result):
                # 统计修改行
                if cur.startswith('?') and prev.startswith('+'):
                    modify_cnt += 1

        return modify_cnt

删除

如何统计代码删除行数呢？如下代码中，我们不需要检查最后一行是否为删除行，因为每一行的情况都会被考虑进去。通过记录前一个字符，我们可以在代码更短的情况下实现逐行扫描并逐行统计删除行数。

class sql_code_del(object):
    def evaluate(self, arg0, arg1):

        v1 = flt_empty_comment_line(arg0)
        v2 = flt_empty_comment_line(arg1)
        result = list(d.compare(v1,v2))
        
        del_cnt = 0 # 用于计算代码行数
        prev_char = '' # 记录前一个字符
        
        for i, line in enumerate(result):
            if line.startswith('-'):
                if prev_char != '-':
                    del_cnt += 1
            elif line.startswith('?'):
                if prev_char == '-':
                    del_cnt += 1
            prev_char = line[0]
            
        return del_cnt

总结

通过高度抽象的面向对象方法可以将统计的最小原子功能进行封装并重用，并尽可能地利用Python本身的特性和库来优化算法的效率，可以避免因为多次实例化和位运算带来的计算浪费

本次的代码行统计场景中，我们其实用到了以下Python的特性和库：

使用Python的内置方法strip()来去除字符串前后的空格，从而避免重复的空格处理操作。
使用Python的内置方法splitlines() (这是一个很好的分而治之前序动作，来将字符串按行分隔成一个列表，从而避免了重复的字符串分隔操作）
使用Python的内置库difflib来对比两个字符串的差异，从而实现新增&修改&删除代码行数的统计
使用Python的内置库re来对代码行进行正则匹配，从而实现对代码行中注释的统计，通过修改正则表达式的规则，我们可以规模化的覆盖其他种代码的注释场景而不仅仅是SQL，可以是C++，JAVA或其他

新年愿景

Sun, 01 Jan 2023 00:00:00 +0000

🏄 Practice

悄悄变富，初识量化交易
进阶单板运动，入门滑雪花式，冲浪提高判浪意识，双翘突破尖翻
入门弹唱，懂一些乐理
多语言体验，抓住一切英语环境保持语感，多习得习语
提高生存技巧，做饭打基础丰富菜单，量化口味
多体验生活，多发朋友圈纪念
生活提效，让日常流程能形成工作流，缩短在必要事项上的时间投入
冲刺E类人才，达成提交专利/软件著作，或参加9月份软考认证高级信息系统管理师

💡 Wisdom

做自己，明白自己与众不同点，自我意识
和Pru享受生活，慢慢变好，旅游，交流看的书，多见朋友
关注家庭，提高影响力
记录朋友生日，维护礼物名单
制作资产损益表

❤️ Health

O：变强壮高支撑

KR：每周一次背部肌肉群激活→训练

KR：站立办公的同时尽量呼吸不扩张肋骨以改善体态

O：关注肩颈眼睛

KR：每双周一次中医按摩学习肩颈按法

Web3漫游指南

Sat, 04 Jun 2022 00:00:00 +0000

1 如何了解WEB3

知识来源

只工作不上班的可能性播客ShowNotes
luyun的notion笔记:《web3探索指南》
中二怪关于做数字游民的文章《digital nomad指南》
社交平台及账号
- 即刻app的“Web3研究所”圈子
- Twitter博主
  - @Luyun(写出《web3探索指南》的女性博主)；
  - @Vitalik.eth(以太坊创始人)
  - @guoyu.eth(字节跳动财务自由退休的程序员)；
  - @VicodinXYZ(张潇雨，《得意忘形》主播)

知识点

DYOR 自己做研究很重要
WED3 包括读、写和拥有
WEB3 许多知识是以英文形式呈现，可以使用DeepL进行翻译
以太坊的出现，让Smart Contract, Token, DApp都相继爆火

2 逐梦币圈背景

与人面对面的交流是同步的信息交换，而观看长视频的内容则是单向的异步信息摄取，通过评论，点赞等内容反馈机制可以反向给予信息赠予。

知识来源

一级市场入门 & 一级市场进阶：识别优质企业标的
初入币圈播放量 7942（optional：用李沐提及的价值公式来量化此视频价值）
DeFi—现实世界金融秩序的去中心化重构

知识点

关于这方面领域的知识会持续更新，这里先以bullet point的形式做一个离散信息的收集

指望基金发财不太现实，市场大环境在发展，通胀也在加剧；新的财富密码
深耕区块链金融领域的投行人配置了20% - 30%的资产，作为了解更少的散户笔者认为配置5% - 10%
比特币是区块链一代目，无法搭建应用，有点类似于区块链界的黄金；
以太坊的价格过高不利于建立在ETH上应用生态，因为以太坊的价格和交易手续费挂钩，低的手续费更能促进应用发展
朴素的策略：投资标的被低估就买入；看涨时可以分批卖出，保证本金安全后将超额部分留着争取最大收益，动态调整投入成本

工作，读书与财富

Tue, 01 Jun 2021 00:00:00 +0000

前言：深度学习大神李沐在知乎里发表了自己的工作多年的感言（工作五年反思与博士这五年），其中涉及家庭、职业规划和人生价值；此文给我许多启发，像是摸着前人的路大概能看到未来的那一抹模糊的轮廓；同时结合自己近期在区块链项目上的摸索，希望能形成一个较为自洽的思考链路

1 读沐神工作五年反思有感

作者好似喜欢用五年维度来衡量生活，国外博士恰好五年，从学生时代再到职业生涯，学术界到产业界，十年时间一个人的思想是如何成长和改变？这引起笔者强烈好奇。

前言挺有意思的

“五年前的今天我飞往西雅图参加亚马逊的面试。面试完后连夜做红眼航班飞往波士顿赶去参加老婆在MIT的博士答辩。答辩一半的时候电话响了，对方说恭喜你面试通过，想聊下薪水。我说其实就面了你们一家，直接给就是，先挂了。”

2 事情的价值是对社会的价值

“决定优先级应该是根据事情的价值。我现在评估一件事的价值是它对社会的价值，用公式来写就是”

$ 社会价值 = 受益人数 \times 人均时间 \times 单位时间价值差 $

“这里能从一件事情受益的人数，和受益的人均时间是这件事本身属性。第三项取决于你对这件事完成的好坏，就是你做得比别人做的类似的事情要好，从而受益人从你这里受益比从别人那里多。”

这里的价值差很有意思，你要在某件事上能带来超出他人价值的产出，这样衡量价值比较准确，这也间接突出了文献综述的重要性，需要了解到别人做到哪一程度了，自己在此基础上再提供比别人更多的信息才是有价值的，

反观自己，对事情的价值排序往往是由事情的紧迫性来决定（这点在我关于高效能人士的7个习惯读后感中有提及），可能自己还没有到达这一高度，身处学生时代无时不刻忙着紧迫的事情，而在闲暇时间能顾上真正重要的事情非常的难。

对于这个价值公式，作者也举了自己的例子来进行一个较为自洽的解释

这个公式可以用在各种不同的事情上，接下来我们会不断使用它。这里先举几个例子。例如伟大的产品一般具有极高的价值。拿微信来说，它是手机通讯软件，面向几十亿手机用户，每人每天会使用数小时，所以它价值的前两项非常大。因为微信用户体验很好，它比其它替代品的用户体验好给用户带来的价值就是价值差。所以微信是一个非常有价值的产品。

再举一个更小的例子。过去四年里我花在带娃上的时间比工作多。在相当一段时间内都觉得事业被娃耽搁了。直到后来我用这个公式来算：虽然人数只是两个人，但受益时间相当高，一周五十小时以上。而且父亲就一个，有我陪和没我陪对小孩来说区别巨大（自我感觉），所以价值公式的后两项很高。此外，带娃对我个人也有价值，包括如何去理解思维方式完全不一样的他人，以及时刻跟自己想暴怒的冲动做斗争，最终达到佛性的状态。这样算下来心里就顺了

3 技术最终是为产品服务

“不管是在产品团队做技术，还是在公司研究院，都应该对产品的价值有所了解。例如深入理解口头禅：市场、刚需、痛点、高频。同时也应该知道你手上的技术对产品的价值，用它来指导你对技术路线的规划。”

结合最近在技术分享沙龙中听到的“文档先行”理念，理解到在做一件事情前设计的重要性，涉及到晋升，大局观，知识沉淀等多方面的影响。在自身工作中更多的了解业务的想法与思路才能让技术真正发挥其实现价值

4 只要投入力气，短板可以变成优势

“以前每次发布MXNet的新特性时，知乎同学都是吐槽：回去写好文档先。大家都知道程序员不喜欢写文档。我从小语文和英语都是在及格线徘徊，更是心有抵触。17年的时候痛下决心来写文档，我把我所有留下做技术的时间都花在上面，最后跟大家一起写出了《动手学深度学习》这本教科书，现在被全世界近200所大学采用做教材。所以，你的不足能成为你的机会。只要你直面它，狠下心来花力气，不断去改进，你的短板会变成优势。”

上述文章原句提及程序员不喜欢写文档是真实的故事，但不留下程序设计的具体思路，搭建系统的框架知识，技术很难沉淀并影响更多的人，李沐大神亲身示范写下“动手学深度学习”就是这样一个很好的例子，将短板变为优势。

5 分布式系统里通讯开销才是大头

从机器的工作原理迁移到人，强调大团队里的协作工作需要耗费大量通讯成本；人本身不稳定性更强，初入职场要多花时间精力来沟通，这是许多大团队工作中都固有的现象。

6 总结的总结，但还未结束

“专注于最有价值的事情”之基础应该是人的价值认知体系建立完全，笔者自认为还远远没有认清自身在这个时代中的价值角色，“一生中能做好几件有极大价值的事，那也就值了”正是这种看似佛系的想法，才有了许多细分领域不断突破自我的伟人。在此能勉励自己在数据科学领域深耕，多结合业务与产品，在提高对社会价值贡献度的路上不断前进。

基于文本挖掘分析谷歌招聘信息项目

Mon, 20 Jan 2020 00:00:00 +0000

前情提要

本项目代码与数据集已公开在Github平台，点击链接可查看源代码，所有python脚本的主要结构都分为以下结构：

1. 读取数据
2. 数据处理
3. 调用pyecharts包
4. 生成html图

为什么会做这个？

我和奚宇星先是在网上搜罗有趣的数据集，看到kaggle上有人爬取了2018年谷歌在全球招聘的信息，里面包含了职位，类别，职责，最低条件和优先资格，这引起了笔者的注意。因为笔者正处周围同学都在找工作的氛围中（南财即将就业的大四学子），许多同学为了科技大厂不断的刷题，改简历去追求与自己较为对口的岗位，这让我产生一个想法：能不能用数据分析的方法提高自己进入某个企业的概率；故我们找到这个数据集，虽然不是最新的数据，但不失为一个模拟锻炼的机会。

Dataset

共有1250像这样的数据，由于是英文，无需像中文那样进行复杂的分词工作，这就给我们文本挖掘带来很大的便利，不过要提前注意在词频统计阶段要剔除对数据分析无用的单词词，比如人称主语，停用词，数字。

聚类分析

这是我们这次数据挖掘的重点

我们希望挖掘工作类别之间的关系，用人工理解工作类别的方式，对职责中的高频词汇，取有效值进行人工分类，各取五个，先粗略的分为市场营销，管理决策，技术类；先对各个类别进行词频统计，跳过无关项。

rt={'管理决策':['manage','strategy','solution','management','lead'],
    '技术':['develop','technical','cloud','client','build'],
    '市场营销':['product','business','customer','sale','marketing']}    
for i in rt.keys():
    tmp[i]=sum(map(lambda s:getCounts(s,freq),rt[i]))/len(t)
tmp['n']=category

对每个类别进行类似打分的操作，让三个维度的数值维持在0~10之间，方便平衡三个尺度在一个合理的范围内进行聚类分析

for i in scores:
    cs[i['n']][0]+=1
    cs[i['n']][1]+=i['管理决策']
    cs[i['n']][2]+=i['技术']
    cs[i['n']][3]+=i['市场营销']

最后调用Python的sklearn包直接实现聚类，先设置类簇为3，再设置随机种子为9，使得每一次相同条件的聚类结果相同，不过目前暂时不需要调整kmeans的参数来优化模型，kmeans的聚类结果足够我们找出一些规律。

from sklearn.cluster import KMeans
for k,v in cs.items():
kmeans=KMeans(n_clusters=3, random_state=9)
res=kmeans.fit_predict(datasets)

我们发现偏重技术与市场营销的岗位如Technical Solution技术解决方案，销售运营Sales Operations，销售与会计管理Sales&Account Management，这些岗位联系较大，申请人在投递对应岗位的时候可以参考这些联系较为紧密的招聘信息，对自己的简历和面试做好相应准备，比如第二志愿可以选择相似的职位，而不是仅仅凭借岗位的名字判断。
第二个类簇主要是那些对市场营销和技术要求中等的岗位，产品与客户支持Product & Customer Support，用户体验与设计User Experience & Design，营销与交流Marketing & Communications等，在投递该类型岗位的时候就可以一次投递相似的多个岗位，因为从聚类的结果来看这几个岗位在高频词上具有相关性。
第三个类簇主要是那些单纯的技术岗位，如软件工程Software Engineering，技术设施维护Technical Infrastructure，网络工程Network Engineering，硬件工程Hardware Engineering，在投递这些岗位的时候应该侧重自身的一些相关的技术特长，可以减少描述一些市场营销与决策管理方面的能力，为你的其它匹配技能与项目经历腾出空间。
点击我查看聚类三维图

其它数据维度

为了找出职位较多的区域，利用Echarts高交互性的特点，我们可以在图表中调节使用左下角的热力柱，找出热点区域，调整到41时发现地图上剩下6个国家，美国、爱尔兰、英国、德国、新加坡和中国。

点击我查看地理热点图

我们发现销售&客户管理以及市场营销&沟通是一个这个公司招聘岗位里的大头，约占所有职位的27％。但是，职位招聘最少的岗位是（基于职位发布数）：数据中心与网络、技术写作、IT与数据管理、开发者关系、网络工程，偏重于技术开发，这里就能看出公司经费开销的比重

结合JavaScript批量获取网站内容

Wed, 14 Aug 2019 00:00:00 +0000

写在前面：该方法用于解决“爬虫操作繁琐与手动复制太累”的情况

思路：

将目标网页当前页另存为本地文件
先分析要提取内容所在标签或类名
在网页的低端插入容器用以显示要抓取的内容
在网页源代码的插入JS代码命令
该段JS使得目标内容在容器中显示
复制目标内容至txt文件进行预处理

1. 将目标网页当前页另存为本地文件

在chrome打开目标网页，右键另存为到桌面，可以看到有 xxx.html 与 xxx_file（文件夹），将 xxx.html 用文本编辑器打开（推荐使用sublime）

2. 先分析要提取内容所在标签或类名

可以 cmd+F或者ctrl+F查找目标内容，如笔者想要查找以下内容


    
        A看电视和电影 B 不和别人交流 C 影响交流能力
        ...
        特定化：特别是现在大家可以手机看电影等
     
     
        翻译：不要回答！不要回答！不要回答！
        词汇：depict,de facto,simutaneous
        ...
        you got it!
     
     ...

观察此时中文内容所在容器的id或类名，比如此时的class="item-box"，class="collo_cn_content"和class="collapse"，进一步分析可得item-box包含了collo_cn_content和collapse两个类下的目标内容，故之后选用此类名作定位关键词，记住这个item-box

3. 在网页的低端插入容器用以显示要抓取的内容

在网页源代码的主题段底端（存放位置顺随心意就行，笔者这里以底端为例）

如一下代码的后四行，在主题部分的末尾添加容器，用以待会存放显示目标内容


    
        
            闽ICP备xxxxx号
        
    

    在这里显示目标内容 !
    show targeted contents there !

4. 在网页源代码的插入JS代码命令

插入如下命令

content存放所定位到的所有目标内容，将content定位到如下之前写好的容器里


 在这里显示目标内容 !
 show targeted contents there !

5. 该段JS使得目标内容在容器中显示

完成如上操作后，即可打开已经修改过的网页

注意! 如果数据量大如3w+，需要等待页面响应或者优化js代码，如缩小定位范围来减少浏览器查找时间）

经过调试后目标内容显示成功，可直接在页面上选中复制进 txt 文件中

6. 实用python对txt文件进行预处理

数据预处理这里笔者以删除空白行为例

def clearBlankLine():
    file1 = open('/Users/xxx.txt', 'r', encoding='utf-8') 
    # 要去掉空行的文件 
    file2 = open('/Users/xxx_processed.txt', 'w', encoding='utf-8') 
    # 生成没有空行的文件
    try:
        for line in file1.readlines():
            if line == '\n':
                line = line.strip("\n")
            file2.write(line)
    finally:
        file1.close()
        file2.close()

if __name__ == '__main__':
    clearBlankLine()

处理完文件中的空白行后根据需要进行进一步数据处理，如分词等让目标内容能更好的为我们所用！

中文博客 on Zeqiang Fang | 方泽强

如何优雅地统计代码提交行数

背景

挑战

对策&方案

数据准备

统计功能

空值&注释

新增&修改

删除

总结

新年愿景

🏄 Practice

💡 Wisdom

❤️ Health

Web3漫游指南

1 如何了解WEB3

知识来源

知识点

2 逐梦币圈背景

知识来源

知识点

相关名词

工作，读书与财富

1 读沐神工作五年反思有感

2 事情的价值是对社会的价值

3 技术最终是为产品服务

4 只要投入力气，短板可以变成优势

5 分布式系统里通讯开销才是大头

6 总结的总结，但还未结束

基于文本挖掘分析谷歌招聘信息项目

前情提要

为什么会做这个？

Dataset

聚类分析

其它数据维度

结合JavaScript批量获取网站内容

1. 将目标网页当前页另存为本地文件

2. 先分析要提取内容所在标签或类名

3. 在网页的低端插入容器用以显示要抓取的内容

4. 在网页源代码的插入JS代码命令

5. 该段JS使得目标内容在容器中显示

6. 实用python对txt文件进行预处理