判断平面内点在多变形内外的射线算法及实现

判断一个点是否在多边形内&GIS LBS 系统中的应用说明

如何判断一个点是否在多边形内部?

  1. 面积和判别法:判断目标点与多边形的每条边组成的三角形面积和是否等于该多边形,相等则在多边形内部。
  2. 夹角和判别法:判断目标点与所有边的夹角和是否为360度,为360度则在多边形内部。
  3. 引射线法:从目标点出发引一条射线,看这条射线和多边形所有边的交点数目。如果有奇数个交点,则说明在内部,如果有偶数个交点,则说明在外部。

1.2.都非常好理解,但是1.2. 并不适合所有的多边形,比如说凹多边形。关于射线算法,好像没有公式证明,不过网上很多论文可以google到.

实例一
图一:点延伸出的射线穿过不规则多边形,往左射线交5点,往右射线交3点,所以判断点在多边形内

多边形要规避一些极端情况,比如自我闭合等情况,具体可以参考Determining Whether A Point Is Inside A Complex Polygon

关于GIS/LBS上的应用,问,该算法是否可以判断经纬度坐标是否在一个标记的地图围栏中(任意多边形),答案是可以,但是需要注意两个问题:


道格拉斯-普克抽稀算法

道格拉斯-普克抽稀算法,是用来对大量冗余的图形数据点进行压缩以提取必要的数据点。

文章包括三部分

  1. 算法原理
  2. 代码实现(csharp)
  3. 实际应用举例对比(图)

道格拉斯普克算法原理

该算法实现抽稀的过程是:

1)对曲线的首末点虚连一条直线,求曲线上所有点与直线的距离,并找出最大距离值dmax,用dmax与事先给定的阈值D相比:
2)若dmax<D,则将这条曲线上的中间点全部舍去;则该直线段作为曲线的近似,该段曲线处理完毕。
  若dmax≥D,保留dmax对应的坐标点,并以该点为界,把曲线分为两部分,对这两部分重复使用该方法,即重复1),2)步,直到所有dmax均<D,即完成对曲线的抽稀。
 
显然,本算法的抽稀精度也与阈值相关,阈值越大,简化程度越大,点减少的越多,反之,化简程度越低,点保留的越多,形状也越趋于原曲线。


Guava BloomFilter 实现

Guava BloomFilter 实现

Guava BloomFilter 改进点

  1. 重写了 bitset,可以参见 LockFreeBitArray类的实现 ,突破了int.maxsize 大约21亿的限制
  2. 采用MurmurHash3 非加密型哈希函数,对大块的数据,具有较高的平衡性与低碰撞率。en.wikipedia.org100w字符串hash,1s+
  3. 论文Less Hashing, Same Performance!Building a Better Bloom Filter,提到只需要两个;论文用google翻译了一部分,见
  4. 32位散列函数这个技巧并不会显着降低Bloom过滤器的性能;guava 具体做法见 BloomFilterStrategies 类的MURMUR128_MITZ_32MURMUR128_MITZ_64两种策略的实现
  5. 添加元素过程中,并非执行了 optimalNumOfHashFunctions 次hash 操作,改为一次MurmurHash3,和optimalNumOfHashFunctions次基础运算,大大减少了计算次数,提高了性能
  6. BloomFilter 一直被标记为@Beta,但已经在google很多产品中得到运用

Bloom Filter 概念和原理

  Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,Bloom Filter通过极少的错误换取了存储空间的极大节省。

  Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。

适用场景

  • 黑名单
  • 爬虫重复URL检测
  • 字典纠缠
  • 磁盘文件检测
  • CDN(squid)代理缓存技术

以爬虫重复URL举例:

  假设要你写一个网络蜘蛛(web crawler)。由于网络间的链接错综复杂,蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环”,就需要知道蜘蛛已经访问过那些URL。给一个URL,怎样知道蜘蛛是否已经访问过呢?稍微想想,就会有如下几种方案:

  1. 将访问过的URL保存到数据库。

  2. 用HashSet将访问过的URL保存起来。那只需接近O(1)的代价就可以查到一个URL是否被访问过了。

  3. URL经过MD5或SHA-1等单向哈希后再保存到HashSet或数据库。

  4. Bit-Map方法。建立一个BitSet,将每个URL经过一个哈希函数映射到某一位。

  方法1~3都是将访问过的URL完整保存,方法4则只标记URL的一个映射位。
  
以上方法在数据量较小的情况下都能完美解决问题,但是当数据量变得非常庞大时问题就来了。


团队代码协作规范 及 产品发布流程 v2

基于Gitflow 工作流 + 测试/预演/生产 环境 产品发布上线流程

团队代码协作规范 及 产品上线发布流程

团队代码协作规范 - 基于git flow工作流

git-flow


banner字符图案生成

linux 下3个有趣的小工具,用来生成 banner字符图案:

banner: 使用#来组成
figlet: 使用-,等普通字符生成
toilet:使用一些复杂的彩色特殊字符生成


团队Scrum实践规则

团队组建

并不需要个个都是技术超一流的,相反,下面几个特性在组建团队时更应该得到重视:

  1. 社交敏感度
  2. 同理心

重新定义领导力
领导力就是有能力去创造一种环境,让其中的每个人都能集思广益
创造一种环境:
在技术上
在研发过程上,能够自驱动自组织

不需要过多干涉运行,只需要保证团队的正常运作,倾听团队的意见并确保他们遵守原则。

Scrum 规则:

  • 规则迭代:在每个sprint结束后,在retrospective会议上进行调整,统一后在下个sprint 内严格遵守
  • 惩罚规则:Daily Scrum Meeting,定好时间后,未按规定时间到会,每迟到一分钟10元红包…不超过50元。或者选择唱歌、真心话大冒险
  • 需求变更控制:所有有关需求的事项(如需求不明确/需求变更),均需要在worktile 的话题模块进行讨论,并让所有人进行关注,避免结论被忽视,禁止进行单独对接和群内讨论;有了结论后,需要Scrum master 根据结论调整“todo” 栏目,并且邮件通知
    调整说明:项目组成员内部能解决的由测试进行记录到worktile;需要与外部沟通的由Scrum master记录;所有重大需求变更由Scrum master发邮件通知。
  • DoD 完成标准(Definition of Done):在每个sprint 启动时,由团队一起制定,sprint内的任务完成 评判以此为标准

Java Thread Life Cycle and Thread States

Java Thread Life Cycle and Thread States

一个java 线程 在它的生命周期来,可以处于下图的任何一个状态,可以是 New,Runnable,Blocked,Waiting,Timed Waiting 或 Terminated。同业也称为生命周期内的事件。

Java Thread Life Cycle Status

Java-Thraed-Life-Cycle-States


Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×